图片到字幕生成的深度进修神经收集实现人工智能翻译图片内容_图像_字幕
在过去十年中,自动图像字幕取得了显著进展,这是一项打算机算法为图像创建书面描述的任务。大部分进展是通过利用打算机视觉和自然措辞处理开拓的当代深度学习方法,结合将图像与人类创建的描述配对的大规模数据集来实现的。除了支持主要的实际运用(例如为视障人士供应图像描述)之外,这些数据集还能够调查有关视觉输入中的根本措辞的主要且令人愉快的研究问题。
包含成对文本描述及其相应图像的图像字幕数据集,例如MS-COCO和Flickr30k,已被广泛用于学习对齐的图像和文本表示以及构建字幕模型。不幸的是,这些数据集具有有限的跨模式关联:图像不与其他图像配对,字幕仅与同一图像的其他字幕配对(也称为共同字幕),存在匹配但未标记的图像-字幕对为匹配,并且没有标签,其指示当图像字幕对确实不比赛。这毁坏了对模态间学习(例如,将标题连接到图像)如何影响模态内任务(将标题连接到标题或图像到图像)的研究。这一点很主要,特殊是由于大量关于从图像与文本配对中学习的事情是由关于视觉元素该当如何关照和改进措辞表示的辩论所推动的。
为理解决这个评估差距,Google提出了最近在EACL 2021 上提出的“ Crisscrossed Captions: Extended Intramodal and Intermodal Semantic Similarity Judgments for MS-COCO ” 。Crisscrossed Captions (CxC) 数据集利用图像-文本、文本-文本和图像-图像对的语义相似性评级扩展了 MS-COCO 的开拓和测试拆分。评分标准基于语义文本相似性,一种现有且广泛采取的短文本对之间语义干系性的度量,Google将其扩展到包括对图像的判断。总的来说,CxC 包含 267,095 对(来自 1,335,475 个独立判断)的人类衍生语义相似性评级,这是对 MS-COCO 开拓和测试拆分中 50k 原始二元对的规模和细节的大规模扩展。Google已经发布了CxC 的评级,以及将 CxC 与现有 MS-COCO 数据合并的代码。因此,任何熟习 MS-COCO 的人都可以轻松地利用 CxC 增强他们的实验。
Crisscrossed Captions 通过为现有图像字幕对和共同字幕(实线)添加人类衍生的语义相似性评级来扩展 MS-COCO 评估集,并通过为新图像字幕、字幕字幕添加人类评级来增加评级密度和图像图像对(虚线)。
创建 CxC 数据集如果一张图片值一千字,很可能是由于图片中常日描述的工具之间有很多细节和关系。Google可以描述狗皮毛的质地,命名它追逐的飞盘上的标志,提到刚刚扔飞盘的人脸上的表情,或者把稳树上大叶子上鲜艳的赤色在人的头顶,等等。
CxC 数据集扩展了 MS-COCO 评估拆分,具有模态内和模态之间的分级相似性关联。MS-COCO 每个图像有 5 个标题,分为410k 演习、25k 开拓和 25k 测试标题(分别为 82k、5k、5k 图像)。空想的扩展是对数据集中的每一对(字幕-字幕、图像-图像和图像-字幕)进行评分,但这是不可行的,由于它须要得到数十亿对的人工评分。
鉴于随机选择的图像和标题对很可能不相似,Google想出了一种选择项目进行人工评分的方法,个中至少包括一些具有高预期相似性的新对。为了减少所选对对用于查找它们的模型的依赖性,Google引入了一种间接采样方案(如下所示),个中Google利用不同的编码方法对图像和标题进行编码,并打算相同模态项对之间的相似性,从而产生相似性矩阵。图像利用编码格拉夫-RISE -的嵌入,而字幕利用两个方法编码的通用编码器句(USE)和均匀袋的词基于(BOW)手套嵌入。由于每个 MS-COCO 示例都有五个共同字幕,Google对共同字幕编码进行均匀以创建每个示例的单个表示,确保所有字幕对都可以映射到图像上。
利用均匀 co-caption 编码构建的文本相似度矩阵(每个单元格对应一个相似度分数),因此每个文本条款对应于单个图像,从而产生 5k x 5k 矩阵。利用了两种不同的文本编码方法,但为了大略起见,只显示了一种文本相似度矩阵。底部:数据集中每个图像的图像相似度矩阵,产生一个 5k x 5k 矩阵。
间接采样方案的下一步是利用打算出的图像相似度对人类评分的字幕对进行有偏采样(反之亦然)。例如,Google从文本相似度矩阵中选择两个具有高打算相似度的标题,然后获取它们的每个图像,从而产生一对新的图像,这些图像外不雅观不同,但根据描述的描述相似。例如,标题“一只含羞地向阁下看的狗”和“一只黑狗向阁下抬开始来享受微风””会具有相称高的模型相似度,因此可以选择下图中两只狗的对应图像进行图像相似度评级。这一步也可以从两个具有高打算相似度的图像开始,以产生一对新的标题。Google现在间接采样了新的模内对——至少个中一些高度相似——Google得到了人类评级。
上图:根据打算出的标题相似度挑选图像对。下图:根据它们描述的图像的打算相似度来挑选字幕对
末了,Google然后利用这些新的模内对及其人工评分来选择新的模内对进行人工评分。Google通过利用现有的图像-字幕对在模式之间进行链接来做到这一点。例如,如果一个标题对示例ij被人类评为高度相似,Google从示例i 中选择图像和从示例j 中选择标题以得到人类评级的新多模态对。同样,Google利用具有最高相似度的模内对进行采样,由于这至少包括一些具有高相似度的新对。末了,Google还为所有现有的多式联运对和大量共同字幕样本添加了人工评分。
下图显示了每个评分对应的语义图像相似度 (SIS) 和语义图像-文本相似度 (SITS) 对的示例,个中 5 表示最相似,0 表示完备不同。
基于 SIS(中)和 SITS(右)任务的图像对的每个源自人类的相似度分数(左: 5 到 0,5 表示非常相似,0 表示完备不同)的示例。请把稳,这些示例仅用于解释目的,它们本身不在 CxC 数据集中。
MS-COCO 支持三种检索任务:
1、给定一个图像,从评估集中的所有其他标题中找到它的匹配标题。
2、给定一个标题,从评估集中的所有其他图像中找到其对应的图像。
3、给定一个字幕,从评估集中的所有其他字幕中找到它的其他共同字幕。
MS-COCO 的对不完全由于有时为一幅图像创建的标题同样适用于另一幅图像,但这些关联并未在数据集中捕获。CxC 用新的正对增强了这些现有的检索任务,它还支持新的图像-图像检索任务。通过分级相似性判断,CxC 还可以衡量模型和人类排名之间的干系性。检索指标一样平常只关注正对,而 CxC 的干系性分数其余考虑了相似性的相对排序,并包括低分项目(非匹配)。与不相交的标题-图像、标题-标题和图像-图像关联集比较,在一组通用图像和标题上支持这些评估使它们对付理解模态间学习更有代价。
Google进行了一系列实验来展示 CxC 评级的效用。为此,Google利用BERT -base 作为文本编码器和EfficientNet-B4作为图像编码器构建了三个双编码器 (DE) 模型:
1、一种文本-文本 (DE_T2T) 模型,双方利用共享文本编码器。
2、利用上述文本和图像编码器的图像-文本模型 (DE_I2T),并在文本编码器上方包含一层以匹配图像编码器输出。
3、在文本-文本和图像-文本任务的加权组合上演习的多任务模型 (DE_I2T+T2T)。
CxC 检索结果——Google的文本-文本 (T2T)、图像-文本 (I2T) 和多任务 (I2T+T2T) 双编码器模型在所有四个检索任务上的比较。
从检索任务的结果可以看出,DE_I2T+T2T(黄色条)在图像-文本和文本-图像检索任务上的表现优于 DE_I2T(赤色条)。因此,添加模内(文本-文本)演习任务有助于提高模间(图像-文本、文本-图像)性能。至于其他两个模内任务(文本-文本和图像-图像),DE_I2T+T2T 在这两个任务上表现出强大且平衡的性能。
上面显示的相同模型的 CxC 干系结果。
对付关联任务,DE_I2T 在 SIS 上的表现最好,DE_I2T+T2T 总体上是最好的。干系性分数还表明 DE_I2T 仅在图像上表现良好:它的 SIS 最高,但 STS 差得多。将文本文本丢失添加到 DE_I2T 演习 (DE_I2T+T2T) 会产生更平衡的整体性能。
与原始 MS-COCO 图像-字幕对照拟,CxC 数据集供应了一组更完全的图像和字幕之间的关系。新的评级已经发布,更多细节在Google的论文中。Google希望鼓励研究界通过更好的模型来推动 CxC 引入的任务的最新技能,以共同学习模态间和模态内表示。
本文系作者个人观点,不代表本站立场,转载请注明出处!