我们对天下的体验是多模态的 —— 我们看到物体,听到声音,觉得到质地,闻到气味,尝到味道。
模态是指某件事发生或经历的办法,当一个研究问题包含多个模态时,它就具有多模态的特色。
为了让人工智能在理解我们周围的天下方面取得进展,它须要能够同时阐明这些多模态的旗子暗记。

“AI”科普丨太全了!多模态深度进修的综述!_多模_模子 文字写作

例如,图像常日与标签和文本阐明干系联,文本包含图像,以更清楚地表达文章的中央思想。
不同的模态具有非常不同的统计特性。
这些数据被称为多模态大数据,包含丰富的多模态和跨模态信息,对传统的数据领悟方法提出了巨大的寻衅。

在这篇综述中,我们会先容一些首创性的深度学习模型来领悟这些多模态大数据。
随着对多模态大数据的探索越来越多,仍有一些寻衅须要办理。
因此,本文对多模态数据领悟的深度学习进行了综述,旨在为读者(无论其原始社区如何)供应多模态深度学习领悟方法的基本事理,并引发深度学习的新型多模态数据领悟技能。

通过多模态深度学习,结合不同的模态或信息类型来提高效果,从直不雅观上看是一项很有吸引力的任务,但在实践中,如何结合不同的噪声水平和模态之间的冲突是一个寻衅。
此外,模型对预测结果有不同的定量影响。
在实践中最常见的方法是将不同输入的高等嵌入连接起来,然后运用softmax。

这种方法的问题是,它将给予所有子网络/模式同等的主要性,这在现实情形中是非常不可能的。
这里须要采取子网络的加权组合,以便每个输入模态可以对输出预测有一个学习贡献(Theta)。

2 具有代表性的深度学习架构

在本节中,我们将先容多模态数据领悟深度学习模型的代表性深度学习架构。
详细而言,给出了深度架构的定义、前馈打算和反向传播打算,以及范例的变体。
表1总结了代表性模型。

表1:代表性深度学习模型择要。

2.1 深度信念网络(DBN)

受限玻尔兹曼机(RBM)是深度信念网的基本块(Zhang, Ding, Zhang, & Xue, 2018;Bengio,2009 年)。
RBM是玻尔兹曼机的分外变体(见图1)。
它由可见层和隐蔽层组成;可见层的单元与隐蔽层的单元之间存在全连接连接,但同一层中的单元之间没有连接。
RBM 也是一个天生图形模型,它利用能量函数以捕获可见单元和隐蔽单元之间的概率分布.

最近,有人提出了一些前辈的RBM来提高性能。
例如,为了避免网络过度拟合,Chen, Zhang, Yeung, and Chen (2017) 设计了稀疏玻尔兹曼机,该机基于分层潜在树学习网络构造。
Ning, Pittman, and Shen (2018) 将快速比拟发散算法引入 RBM,个中基于边界的滤波和 delta 积用于减少打算中的冗余点积打算。
为了保护多维数据的内部构造,Ju et al. ( 2019) 提出了张量 RBM,学习隐蔽在多维数据中的高等分布,个中利用张量分解来避免维灾害。

DBM是一种范例的深度架构,由多个RBM堆叠而成(Hinton&Salakhutdinov,2006)。
它是一种基于预演习和微调演习策略,可以利用能量来捕捉可见物体与相应标签之间的枢纽关头分布的天生模型。
在预演习中,每个隐蔽层都被贪婪地建模为在无监督策略中演习的 RBM。
之后,通过监督策略中演习标签的判别信息进一步演习每个隐蔽层。
DBN 已被用于办理许多领域的问题,例如数据降维、表示学习和语义哈希。
具有代表性的 DBM 如图 1 所示。

图 1:

2.2 堆叠式自动编码器(SAE)

堆叠式自动编码器(SAE)是编码器-解码器架构的范例深度学习模型(Michael,Olivier和Mario,2018;翁,卢,谭,和周,2016)。
它可以通过以无监督-监督办法将原始输入转换为中间表示来捕获输入的简洁特色。
SAE已广泛运用于许多领域,包括降维(Wang,Yao,&Zhao,2016),图像识别(Jia,Shao,Li,Zhao,&Fu,2018)和文本分类(Chen&Zaki,2017)。
图 2 展示了具有代表性的 SAE。

图2:

2.3 卷积神经网络(CNN)

DBN 和 SAE 是完备连接的神经网络。
在这两个网络中,隐蔽层中的每个神经元都连接到前一层的每个神经元,这种拓扑构造会产生大量连接。
为了演习这些连接的权重,全连接的神经网络须要大量的演习工具来避免过度拟合和欠拟合,这是打算密集型的。
此外,全连接拓扑不考虑神经元之间所包含的特色的位置信息。
因此,完备连接的深度神经网络(DBN、SAE及其变体)无法处理高维数据,尤其是大图像和大音频数据。

卷积神经网络是一种分外的深度网络,它考虑了数据的局部拓扑构造(Li, Xia, Du, Lin, & Samat, 2017;Sze,Chen,Yang和Emer,2017)。
卷积神经网络包括全连接网络和包含卷积层和池化层的约束网络。
约束网络利用卷积和池化运算来实现局部感想熏染野和参数约简。
与 DBN 和 SAE 一样,卷积神经网络也通过随机梯度低落算法进行演习。
它在医学图像识别(Maggiori,Tarabalka,Charpiat和Alliez,2017)和语义剖析(胡,Lu,Li,&Chen,2014)方面取得了很大进展。
具有代表性的 CNN 如图 3 所示。

图 3:

2.4 循环神经网络(RNN)

递归神经网络是一种处理串行数据的神经打算架构(Martens & Sutskever, 2011;Sutskever,Martens和Hinton,2011)。
与深度前向架构(即DBN,SAE和CNN)不同,它不仅将输入模式映射到输出结果,而且还通过利用隐蔽单元之间的连接将隐蔽状态传输到输出(Graves&Schmidhuber,2008)。
通过利用这些隐蔽的连接,RNN 对韶光依赖性进行建模,从而在韶光维度上共享工具之间的参数。
它已被运用于各个领域,如语音剖析(Mulder,Bethard和Moens,2015),图像标题(Xu等人,2015)和措辞翻译(Graves&Jaitly,2014),取得了出色的性能。
与深度前向架构类似,其打算也包括前向通报和反向传播阶段。
在前向通报打算中,RNN 同时获取输入和隐蔽状态。
在反向传播打算中,它利用韶光反向传播算法来反向传播韶光步长的损耗。
图 4 显示了具有代表性的 RNN。

图 4:

3 面向多模态数据领悟的深度学习

在本节中,我们从模型任务、模型框架和评估数据集的角度回顾了最具代表性的多模态数据领悟深度学习模型。
根据所利用的深度学习架构,它们分为四类。
表2总结了具有代表性的多模态深度学习模型。

表2:

代表性多模态深度学习模型择要.

3.1 基于网络的深度信念多模态数据领悟3.1.1 示例1

Srivastava 和 Salakhutdinov (2012) 提出了一种基于深度玻尔兹曼学习模型的多模态天生模型,通过拟合多模态数据在各种模态(如图像、文本和音频)上的联合分布来学习多模态表示。

所提出的多模态DBN的每个模块均采取无监督逐层办法进行初始化,并采取基于MCMC的近似方法进行模型演习。

为了评估学习到的多模态表示,实行了大量的任务,例如天生缺失落模态任务、推断联合表示任务和判别任务。
实验验证了学习到的多模态表示是否知足所需的属性。

3.1.2 示例2

为了在早期有效诊断阿尔茨海默病,Suk、Lee、Shen和阿尔茨海默病神经影像学操持(2014)提出了一种多模态玻尔兹曼模型,该模型可以领悟多模态数据中的互补知识。
详细来说,为理解决浅层特色学习方法造成的局限性,DBN用于通过将特定领域的表示转移到分层抽象表示来学习每个模态的深度表示。
然后,在串联向量上构建单层 RBM,该向量是来自每个模态的分层抽象表示的线性组合。
它用于通过构建不同多模态特色的联合分布来学习多模态表示。
末了,根据三种范例诊断对ADNI数据集对所提出的模型进行了广泛的评估,实现了最前辈的诊断准确性。

3.1.3 示例3

为了准确估计人类姿势,Ouyang, Chu, and Wang (2014)设计了一个多源深度学习模型,该模型通过提取高阶空间中身体模式的联合分布,从稠浊类型、外不雅观得分和变形模态中学习多模态表示。
在人-姿态多源深度模型中,从图像构造模型中提取了三种广泛利用的模态,这些模型基于条件随机场理论组合了身体的各个部位。
为了得到多模态数据,通过线性支持向量机对图形构造模型进行演习。
之后,这三个特色中的每一个都被输入到一个两层受限玻尔兹曼模型中,以从特定于特色的表示中捕获高阶姿态空间的抽象表示。
通过无监督初始化,每个特定模态的受限玻尔兹曼模型都会捕获全局空间的固有表示。
然后,利用RBM进一步学习基于高等稠浊类型、外不雅观得分和变形表示的串联向量的人体姿态表示。
为了演习所提出的多源深度学习模型,设计了一个同时考虑身体位置和人体检测的任务特定目标函数。
所提出的模型在LSP、PARSE和UIUC上进行了验证,并产生了高达8.6%的改进。

最近,人们提出了一些新的基于DBN的多模态特色学习模型。
例如,Amer、Shields、Siddiquie 和 Tamrakar ( 2018) 提出了一种用于序列事宜检测的稠浊方法,个中采取条件 RBM 来提取具有附加判别标签信息的模态和跨模态特色。
Al-Waisy、Qahwaji、Ipson 和 Al-Fahdawi ( 2018) 引入了一种识别人脸的多模态方法。
在这种方法中,利用基于DBN的模型对Curvelet变换捕获的局部手工特色的多模态分布进行建模,可以合并局部特色和深度特色的上风(Al-Waisy等人,2018)。

3.1.4 小结

这些基于DBN的多模态模型利用概率图形网络将特定于模态的表示转换为共享空间中的语义特色。
然后,根据共享空间的特色对模态上的联合分布进行建模。
这些基于DBN的多模态模型在无监督、半监督和监督学习策略中更加灵巧和稳健。
它们非常适宜捕获输入数据的信息特色。
然而,他们忽略了多模态数据的空间和韶光拓扑构造。

3.2 基于堆叠自编码器的多模态数据领悟3.2.1 示例4

Ngiam et al. (2011) 提出的多模态深度学习是基于堆叠自编码器 (SAE) 的多模态数据领悟最具代表性的深度学习模型。
这种深度学习模型旨在办理两个数据领悟问题:跨模态和共享模态表征学习。
前者旨在利用来自其他模态的知识来捕捉更好的单模态表示,而后者则在中级学习模态之间的繁芜干系性。
为了实现这些目标,设计了三种学习场景——多模态、跨模态和共享模态学习,如表 3 和图 6 所示。

图 6:

多模态、跨模态和共享模态学习的架构。

表3: 多模态学习的设置。

在多模态学习场景中,音频频谱图和***帧以线性办法连接成向量。
将串联向量馈入稀疏受限玻尔兹曼机 (SRBM),以学习音频和***之间的干系性。
该模型只能学习多个模态的阴影联合表示,由于干系性隐含在原始级别的高维表示中,而单层 SRBM 无法对它们进行建模。
受此启示,中级表示的串联向量被输入到 SRBM 中,以仿照多个模态的干系性,从而显示出更好的性能。

在跨模态学习场景中,提出了一种深度堆叠多模态自编码器来显式学习模态之间的干系性。
详细来说,音频和***都作为特色学习中的输入呈现,在监督演习和测试中,只有个中一个被输入到模型中。
该模型以多模态学习的办法进行初始化,能够很好地仿照跨模态关系。

在共享模态表示中,在去噪自编码器的勉励下,引入了特定于模态的深度堆叠多模态自编码器,以探索模态之间的联合表示,尤其是在短缺一个模态时。
通过将个中一个模态更换为零而扩大的演习数据集被输入到特色学习的模型中。

末了,在CUAVE和AVLetters数据集上进行了详细的实验,以评估多模态深度学习在特界说务特色学习中的性能。

3.2.2 示例5

为了从一系列图像(尤其是***)中天生视觉和语义上有效的人体骨骼,Hong,Yu,Wan,Tao和Wang(2015)提出了一种多模态深度自动编码器来捕获图像和姿势之间的领悟关系。
特殊是,所提出的多模态深度自编码器通过三阶段策略进行演习,以构建二维图像和三维姿态之间的非线性映射。
在特色领悟阶段,利用多视图超图低秩表示,基于流形学习,从一系列图像特色(如定向梯度直方图和形状高下文)构建内部二维表示。
在第二阶段,演习单层自动编码器来学习抽象表示,该抽象表示用于通过重修二维图像间特色来规复三维姿态。
同时,以类似的办法演习单层自动编码器,以学习三维姿势的抽象表示。
在得到每个单一模态的抽象表示后,利用神经网络通过最小化两个模态互表示之间的平方欧几里得间隔来学习二维图像和三维姿态之间的多模态干系性。
所提出的多模态深度自编码器的学习由初始化和微调阶段组成。
在初始化中,从相应的自编码器和神经网络复制多模态深度自编码器每个子部分的参数。
然后,通过随机梯度低落算法对全体模型的参数进行进一步微调,从相应的二维图像中布局出三维姿态。

3.2.3 小结

基于SAE的多模态模型采取编码器-解码器架构,通过无监督办法通过重构方法提取内在的模态特色和跨模态特色。
由于它们基于SAE,这是一个完备连接的模型,因此须要演习许多参数。
此外,他们忽略了多模态数据中的空间和韶光拓扑构造。

3.3 基于卷积神经网络的多模态数据领悟3.3.1 示例 6

为了仿照图像和句子之间的语义映射分布,马,Lu,Shang和Li(2015)提出了一个多模态卷积神经网络。
为了充分捕捉语义干系性,在端到端架构中设计了三级领悟策略——词级、阶段级和句子级。
该架构由影像子网、匹配子网和多模态子网组成。
图像子网是一个具有代表性的深度卷积神经网络,例如Alexnet和Inception,它有效地将图像输入编码为简洁的表示。
匹配子网对将图像内容与语义空间中句子的单词片段干系联的联合表示进行建模。

3.3.2 示例 7

为了将视觉识别系统扩展到无限数量的离散种别,Frome等人(2013)通过利用文本数据中的语义信息提出了一种多模态卷积神经网络。
该网络由措辞子模型和视觉子模型组成。
措辞子模型基于skip-gram模型,该模型可以将文本信息传输到语义空间的密集表示中。
视觉子模型是一个具有代表性的卷积神经网络,例如 Alexnet,它在 1000 类 ImageNet 数据集上进行预演习以捕获视觉特色。
为了对图像和文本之间的语义关系进行建模,措辞和视觉子模型通过线性投影层进行组合。
每个子模型都由每个模态的参数初始化。
之后,为了演习这种视觉语义多模态模型,提出了一种新的丢失函数,通过结合点积相似度和铰链秩丢失,可以为精确的图像和标签对供应高相似性分数。
该模型可以在 ImageNet 数据集上产生最前辈的性能,避免语义上不合理的结果。

3.3.3 小结

基于CNN的多模态模型可以通过局部字段和池化操作来学习模态之间的局部多模态特色。
它们显式地对多模态数据的空间拓扑进行建模。
而且它们不是参数数量大大减少的完备连接模型。

3.4 基于递归神经网络的多模态数据领悟3.4.1 示例 8

为了天生图像的标题,毛等人(2014)提出了一种多模态递归神经架构。
这种多模态递归神经网络可以弥合图像和句子之间的概率干系性。
它办理了以前事情无法天生新图像标题的局限性,由于以前的事情根据学习的图像-文本映射在句子数据库中检索相应的标题。
与以前的事情不同,多模态递归神经模型(MRNN)根据给定的单词和图像学习语义空间上的联合分布。
当图像涌现时,它会根据捕获的联合分布逐字天生句子。
详细来说,多模态递归神经网络由措辞子网、视觉子网和多模态子网组成,如图 7 所示。
措辞子网由两层词嵌入部分和单层循环神经部分组成,前者捕获有效的特界说务表示,后者对句子的韶光依赖性进行建模。
视觉子网实质上是一个深度卷积神经网络,如Alexnet、Resnet或Inception,它将高维图像编码为紧凑的表示。
末了,多模态子网是一个隐蔽网络,它对学习措辞和视觉表示的联合语义分布进行建模。

图 7:

3.4.2 示例 9

为理解决当前视觉识别系统无法一览无余地天生图像丰富描述的局限性,通过桥接视觉和文本数据之间的模态间关系,提出了一种多模态对齐模型(Karpathy&Li,2017)。
为了实现这一点,提出了一个双重方案。
首先,设计了一个可视化语义嵌入模型来天生多模态演习数据集。
然后,在此数据集上演习多模态 RNN,以天生图像的丰富描述。

在视觉语义嵌入模型中,区域卷积神经网络用于获取丰富的图像表示,这些图像表示包含与句子相对应的内容的足够信息。
然后利用双向 RNN 将每个句子编码为具有图像表示的相同维度的密集向量。
此外,还给出了一个多模态评分函数来衡量图像和句子之间的语义相似性。
末了,利用马尔可夫随机场方法天生多模态数据集。

在多模态RNN中,提出了一种基于文本内容和图像输入的更有效的扩展模型。
该多模态模型由对图像输入进行编码的卷积神经网络和对图像特色和句子进行编码的 RNN 组成。
该模型还通过随机梯度低落算法进行演习。
这两种多模态模型都在 Flickr 和 Mscoco 数据集上进行了广泛的评估,并实现了最前辈的性能。

3.4.3 小结

基于RNN的多模态模型能够借助隐蔽单元打算中的显式状态通报来剖析隐蔽在多模态数据中的韶光依赖性。
他们利用韶光反向传播算法来演习参数。
由于在隐蔽状态传输中进行打算,因此很难在高性能设备上并行化。

4 总结与展望

我们将模型总结为基于DBN、SAE、CNN和RNN的四组多模态数据深度学习模型。
这些首创性的模式已经取得了一些进展。
然而,这些模型仍处于初步阶段,因此仍旧存在寻衅。

首先,多模态数据领悟深度学习模型中存在大量的自由权重,特殊是对目标任务影响不大的冗余参数。
为了演习这些捕获数据特色构造的参数,将大量数据输入到基于反向传播算法的多模态数据领悟深度学习模型中,该算法打算密集且耗时。
因此,如何结合现有的压缩策略设计新的多模态深度学习压缩方法也是一个潜在的研究方向。

其次,多模态数据不仅包含跨模态信息,而且包含丰富的跨模态信息。
因此,深度学习和语义领悟策略的结合可能是办理探索多模态数据所带来的寻衅的一种办法。

第三,从动态环境中网络多模态数据,表明数据是不愿定的。
因此,随着动态多模态数据的爆炸式增长,必须办理用于数据领悟的在线和增量多模态深度学习模型的设计问题。