在12个***理解责任中Mamba先打败了Transformer_***_模子
AIxiv专栏是机器之心发布学术、技能内容的栏目。过去数年,机器之心AIxiv专栏吸收宣布了2000多篇内容,覆盖环球各大高校与企业的顶级实验室,有效促进了学术互换与传播。如果您有精良的事情想要分享,欢迎投稿或者联系宣布。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。
探索***理解的新境界,Mamba 模型引领打算机视觉研究新潮流!
传统架构的局限已被冲破,状态空间模型 Mamba 以其在长序列处理上的独特上风,为***理解领域带来了革命性的变革。
来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项首创性事情。他们全面核阅了 Mamba 在***建模中的多重角色,提出了针对 14 种模型 / 模块的 Video Mamba Suite,在 12 项***理解任务中对其进行了深入评估。结果令人振奋:Mamba 在***专用和*** - 措辞任务中均展现出强劲的潜力,实现了效率与性能的空想平衡。这不仅是技能上的飞跃,更是对未来***理解研究的有力推动。
论文标题:Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding
论文链接:https://arxiv.org/abs/2403.09626
代码链接:https://github.com/OpenGVLab/video-mamba-suite
在当今快速发展的打算机视觉领域,***理解技能已成为推动行业进步的关键驱动力之一。浩瀚研究者致力于探索和优化各种深度学习架构,以期实现对***内容的更深层次解析。从早期的循环神经网络(RNN)和三维卷积神经网络(3D CNN),到目前广受瞩目的 Transformer 模型,每一次技能的飞跃都极大地拓宽了我们对***数据的理解和运用。
特殊是 Transformer 模型,以其卓越的性能在***理解的多个领域 —— 包括但不限于目标检测、图像分割、以及多模态问答等 —— 取得了显著造诣。然而,面对***数据固有的超长序列特性,Transformer 模型也暴露出了其固有的局限性:由于其打算繁芜度呈平方增长,使得对超长***序列的直接建模变得非常困难。
在这样的背景下,状态空间模型架构 —— 以 Mamba 为代表 —— 应运而生,以其线性打算繁芜度的上风,展现出处理长序列数据的强大潜力,为 Transformer 模型的替代供应了可能。只管如此,目前对付状态空间模型架构在***理解领域的运用,还存在一些局限性:一是紧张集中在***全局理解任务,如分类和检索;二是紧张探索了直接进行时空建模的办法,而对付更多样化的建模方法的探索尚显不敷。
为了战胜这些局限,并全面评估 Mamba 模型在***理解领域的潜力,研究团队精心打造了 video-mamba-suite(*** Mamba 套件)。该套件旨在补充现有研究的不敷,通过一系列深入的实验和剖析,探索 Mamba 在***理解中的多样化角色和潜在上风。
研究团队将 Mamba 模型的运用划分为四种不同的角色,并据此构建了一个包含 14 个模型 / 模块的*** Mamba 套件。经由在 12 个***理解任务上的全面评估,实验结果不仅揭示了 Mamba 在处理***和*** - 措辞任务上的巨大潜力,还展现了其在效率和性能之间取得的卓越平衡。论文作者们期待着这项事情能够为***理解领域的未来研究供应可参考的资源和深刻的见地。
研究背景
***理解作为打算机视觉研究的根本问题,其核心在于捕捉***中的时空动态,用一识别并推断活动的性子及其演化过程。目前,针对***理解的架构探索紧张分为三个方向。
首先,基于帧的特色编码方法通过循环网络(如 GRU 和 LSTM)进行韶光依赖性建模,但这种分割的时空建模办法难以捕获联合时空信息。其次,三维卷积核的利用在卷积神经网络中实现了对空间和韶光干系性的同步考虑。
随着措辞和图像领域的 Transformer 模型取得巨大成功,*** Transformer 模型也在***理解领域取得了显著进展,展现出超越 RNNs 和 3D-CNNs 的能力。*** Transformer 通过将***封装在一系列 token 中,并利用把稳力机制实现全局高下文交互和数据依赖的动态打算,从而在统一的办法下处理***中的韶光或时空信息。
然而,由于*** Transformer 在处理长***时的打算效率有限,涌现了一些变体模型,它们在速率和性能之间取得了平衡。最近,状态空间模型(SSMs)在自然措辞处理(NLP)领域展现了其上风。当代 SSMs 在长序列建模中表现出强大的表征能力,同时保持线性韶光繁芜度。这是由于它们的选择机制肃清了存储完全高下文的须要。特殊是 Mamba 模型,将时变参数纳入 SSM,并提出了一种硬件感知算法,以实现高效的演习和推理。Mamba 的出色扩展性能表明,它有望成为 Transformer 的一个有前景的替代方案。
同时,Mamba 的高性能和效率使其非常适宜***理解任务。只管已有一些初步考试测验探索 Mamba 在图像 / ***建模中的运用,但其在***理解中的有效性尚不明确。针对 Mamba 在***理解中的潜力进行全面研究的缺失落,限定了对其在多样化***干系任务中能力的进一步探索。
针对以上问题,研究团队对 Mamba 在***理解领域的潜力进行了探索。他们的研究目标是评估 Mamba 是否可以成为该领域的 Transformer 的一个可行替代方案。为此,他们首先要办理的问题是如何看待 Mamba 在理解***方面中的不同角色。基于此,他们进一步研究了 Mamba 在哪些任务中表现得更出色。
论文将 Mamba 在***建模中的浸染分为以下四类:1) 时序模型,2) 时序模块,3) 多模态交互网络,4) 时空模型。针对每种角色,研究团队都在不同的***理解任务上研究了其***建模能力。为了公正地让 Manba 与 Transformer 一较高下,研究团队根据标准或改进的 Transformer 架构精心选择了用于比拟的模型。在此根本上,他们得到了一个包含 14 个模型 / 模块的 Video Mamba Suite,适用于 12 个***理解任务。研究团队希望 Video Mamba Suite 能成为未来探索基于 SSM 的***理解模型的根本型资源。
四种角色
Mamba 作为***时序模型
任务和数据:研究团队对 Mamba 在五个***韶光任务上的性能进行了评估:韶光动作定位(HACS Segment),韶光动作分割(GTEA),密集***字幕(ActivityNet,YouCook),***段落字幕(ActivityNet,YouCook)和动作预测(Epic-Kitchen-100)。
基准线和寻衅者:研究团队选择了基于 Transformer 的模型作为各项任务的基线。详细来说,这些基线模型包括 ActionFormer,ASFormer,Testra 和 PDVC。为了构建 Mamba 的寻衅者,他们将基线模型中的 Transformer 模块更换为基于 Mamba 的模块,包括如上图三种模块,原始的 Mamba (a),ViM (b),以及研究团队原创设计的 DBM (c) 模块。值得把稳的是,在涉及因果推断的动作预测任务中,论文中将基线模型与原始的 Mamba 模块进行了性能比较。
结果和剖析:论文中展示了不同模型在四项任务上的比较结果。总体而言,只管一些基于 Transformer 的模型已经加入了把稳力变体来提升性能。下表展示了 Mamba 系列比较现有 Transformer 系列方法,展示出了更加卓越的性能。
Mamba 用于多模态交互
研究团队不仅关注了单模态任务,还评估了 Mamba 在跨模态交互任务中的性能。论文中采取***韶光定位(VTG)任务评估了 Mamba 的表现。所涉及的数据集包括 QvHighlight 和 Charade-STA。
任务和数据:研究团队对 Mamba 在五个***韶光任务上的性能进行了评估:韶光动作定位(HACS Segment),韶光动作分割(GTEA),密集***字幕(ActivityNet,YouCook),***段落字幕(ActivityNet,YouCook)和动作预测(Epic-Kitchen-100)。
基准线和寻衅者:研究团队利用 UniVTG 来构建基于 Mamba 的 VTG 模型。UniVTG 采取 Transformer 作为多模态交互网络。给定***特色和文本特色,他们首先为每个模态添加可学习的位置嵌入和模态类型嵌入,以保留位置和模态信息。然后,将文本和***标记连接起来,形成一个联合输入,进一步输入到多模态 Transformer 编码器中。末了,提取文本增强的***特色,并将其送入预测头。为了创建跨模态的 Mamba 竞争者,研究团队选择了堆叠双向 Mamba 块,形成一个多模态的 Mamda 编码器,以替代 Transformer 基线。
结果和剖析:该论文通过 QvHighlight 测试了多个模型的性能。Mamba 的均匀 mAP 为 44.74,与 Transformer 比较有显著提升。在 Charade-STA 上,基于 Mamba 的方法展示出了和 Transformer 类似的竞争力。这表明 Mamba 具有有效整合多种模态的潜力。
考虑到 Mamba 是基于线性扫描的模型,而 Transformer 基于全局标记交互,研究团队直不雅观地认为文本在标记序列中的位置可能会影响多模态聚合的效果。为了调查这一点,他们在表格中包括了不同的文本 - 视觉领悟方法,并在图中展示了四种不同的标记排列办法。结论是,当文本条件与视觉特色的左侧领悟时,可以得到最佳结果。QvHighlight 对此领悟的影响较小,而 Charade-STA 对文本的位置特殊敏感,这可能归因于数据集的特性。
Mamba 作为***时序适配器
在评估 Mamba 在时序后建模方面的性能之外,研究团队还稽核了其作为***韶光适配器的有效性。通过在以自我为中央的数据上实行***文本比拟学习来预演习双塔模型,该数据包含 400 万个带有细粒度阐述的***片段。
任务和数据:研究团队对 Mamba 在五个***韶光任务上的性能进行了评估,个中包括:时序动作定位(HACS Segment),时序动作分割(GTEA),密集***字幕(ActivityNet,YouCook),***段落字幕(ActivityNet,YouCook)和动作预测(Epic-Kitchen-100)。
基准线和寻衅者:TimeSformer 采取了分开的时空把稳力块来分别建模***中的空间和韶光关系。为此,研究团队引入了双向 Mamba 块作为时序适配器,以取代原始的时序自把稳力,改进分开的时空交互。为了公正比较,TimeSformer 中的空间把稳力层保持不变。在这里,研究团队利用了 ViM 块作为时序模块,并将结果模型称为 TimeMamba。
值得把稳的是,标准 ViM 块比自把稳力块有更多的参数(略多于
),个中 C 是特色维度。因此,论文中将 ViM 块的扩展比率 E 设置为 1,将其参数量减少到
,以进行公正比较。除了 TimeSformer 利用的普通残差连接形式,研究团队还探索了 Frozen 风格适配办法。以下是 5 种适配器构造:
结果和剖析
1.零样本多实例检索。研究团队首先在表中评估了具有分开时空交互操作的不同模型,创造文中复现的 Frozen 风格残差连接与 LaViLa 的同等。当比较原始和 Frozen 风格时,不难不雅观察到 Frozen 风格始终产生更好的结果。此外,在相同的适配方法下,基于 ViM 的韶光模块始终优于基于把稳力的韶光模块。
值得把稳的是,论文中利用的 ViM 韶光块与韶光自把稳力块比较参数更少,突出了 Mamba 选择性扫描的较好的参数利用率和信息提取能力。
此外,研究团队进一步验证了时空 ViM 块。时空 ViM 块用全体***序列上的联合时空建模取代了时序 ViM 块。令人惊异的是,只管引入了全局建模,但时空 ViM 块实际上导致了性能低落。为此,研究团队推测基于扫描的时空可能会毁坏预演习空间把稳力块产生空间特色分布。以下是实验结果:
2.微调多实例检索和动作识别。研究团队连续在 Epic-Kitchens-100 数据集上利用 16 帧微调预演习模型进行多实例检索和动作识别。可以从实验结果中国呢不雅观察到 TimeMamba 在动词识别的高下文中显著优于 TimeSformer,超出了 2.8 个百分点,这解释 TimeMamba 能够在细粒度时序方面有效地建模。
3.零样本长***问答。研究团队在 EgoSchema 数据集上进一步评估了模型的长***问答性能。以下是实验结果:
无论是 TimeSformer 还是 TimeMamba,在 Ego4D 上预演习后,都超过了大规模预演习模型(例如 InternVideo)的性能。此外,研究团队从***开始以固定的 FPS 不断增加了测试帧的数量,以探索 ViM 块长***韶光建模能力的影响。只管两个模型都是用 4 帧预演习的,但随着帧数的增加,TimeMamba 和 TimeSformer 的性能稳步提高。同时,当利用 8192 帧时,可以不雅观察到显著的改进。当输入帧超过 32 时,TimeMamba 常日比 TimeSformer 从更多的帧数中受益,表明韶光 ViM 块在时序自把稳力方面具有优胜性。
Mamba 用于时空建模
任务和数据:此外,论文中还评估了 Mamba 在空间 - 韶光建模方面的能力,详细在 Epic-Kitchens-100 数据集上评估了模型在零样本多实例检索方面的性能。
基线和竞争者:ViViT 和 TimeSformer 研究了将具有空间把稳力的 ViT 转化为具有空间 - 韶光联合把稳力的模型。基于此,研究团队进一步扩展了 ViM 模型的空间选择性扫描,以包含时空选择性扫描。命名这个扩展后的模型为 ViViM。研究团队利用在 ImageNet-1K 上预演习的 ViM 模型进行初始化。ViM 模型包含了一个 cls token,该 token 被插入到拍平的 token 序列的中间。
下图中展示了将 ViM 模型转换为 ViViM的方法。对付给定的包含 M 帧的输入,在每帧对应的 token 序列的中间插入 cls token。此外,研究团队添加了韶光位置嵌入,对每个帧初始化为零。然后将展平的***序列输入到 ViViM 模型中。模型的输出是通过打算每帧的 cls token 的均匀值来得到的。
结果和剖析:论文中进一步研究了 ViViM 在零样本多实例检索方面的结果,实验结果如下表所示:
结果展示了不同时空模型在零样本多实例检索上的性能。当比较 ViT 和 ViViM 时,两者都是在 ImageNet-1K 上预演习的,可以不雅观察到 ViViM 的性能超过了 ViT。有趣的是,只管在 ImageNet-1K 上 ViT-S 和 ViM-S 之间的性能差距很小(79.8 vs 80.5),但 ViViM-S 在零样本多实例检索上显示出显著的改进(+2.1 mAP@Avg),这表明 ViViM 在建模长序列方面非常有效,从而提高了性能。
结论
这篇论文通过全面评估 Mamba ***理解领域的表现,展示了 Mamba 可以作为传统 Transformers 的可行替代方案的潜力。通过包含 12 个***理解任务的 14 个模型 / 模块组成的 Video Mamba Suite,研究团队展示了 Mamba 高效处理繁芜时空动态的能力。Mamba 不仅性能轶群,还能够更好地实现效率 - 性能之间的平衡。这些创造不仅强调了 Mamba 适用于***剖析任务,而且还为其在打算机视觉领域的运用开辟了新的路子。未来的事情可以进一步探索 Mamba 的适应性,并将其效用扩展到更繁芜的多模态***理解寻衅中。
本文系作者个人观点,不代表本站立场,转载请注明出处!