「变形金刚」5年代替狂卷的CNN！Transformer将统帅人工智能？_图像_措辞

2024-09-20 07:59:03 智能问答

现在在AI业界家喻户晓的Transformer，究竟是若何在短短韶光爆火的？

「变形金刚」5年代替狂卷的CNN！Transformer将统帅人工智能？_图像_措辞智能问答

Transformer的起源

想象一下你逛附近的五金店，在货架上看到一种新型的锤子。
它比其他锤子敲得更快、更准确，在过去几年里，它已经淘汰了许多其他锤子，至少在大多数用场中是这样。

而且通过一些调度——这里加个附件，那里加个扭矩——这个工具还能变成了一把锯子！
它的切割速率和精确度不亚于任何同类产品。

事实上，一些处于五金开拓前沿的专家表示，这把锤子可能只是所有五金工具将领悟到单个设备中的前兆。

类似的故事正在AI业界中上演。

那个「多功能的新锤子」是称为Transformer的人工神经网络，这是一种通过对现有数据进行演习来「学习」如何完成某些任务的节点网络。

最初，Transformer被用于措辞处理，不过最近则影响到了更多的领域。

2017年，Transformer首次涌如今谷歌研究职员揭橥的论文中，该论文题目是神秘的「Attention Is All You Need」。

之前其他人工智能的通用路径是，系统会首先关注输入数据局部的块，然后再去构建整体。
例如，在措辞模型中，临近的单词首先会被组合在一起。

而Transformer的运行路径，则会让输入数据中的每个单元都相互联系或得到关注，研究职员将此称为「自把稳力」。
这意味着一旦开始演习，Transformer就可以看到全体数据集的处理轨迹。

论文链接：https://arxiv.org/abs/1706.03762

很快，Transformer就成为专注于剖析和预测文本的单词识别等运用程序的领头羊。
它催生了一批新的AI工具，比如OpenAI的GPT-3，它可以演习数千亿个单词并持续天生语义可读的新文本，智能到令人不安。

Transformer的成功让AI业界好奇它还能完成其他哪些任务，而答案正在揭晓。

在诸如图像分类的视觉任务中，利用Transformer的神经网络更快、更准确。
而那些须要一次性处理多种输入数据/操持任务的新兴任务也预示着，Transformer能实行的事情还可以更多。

就在10年前，AI学界的不同子领域之间险些没有共通措辞。
但Transformer的到来表明了领悟的可能性。

德克萨斯大学奥斯汀分校的打算机科学家Atlas Wang说：「我认为Transformer之以是如此受欢迎，是由于它暗含着全领域通用的潜力。
我们有充分的情由想要在全体AI科学范围内考试测验利用Transformer」。

从措辞到视觉

在「Attention Is All You Need」论文发布几个月后，扩大Transformer运用范围的最有出息的举措之一就开始了。

当时在柏林的谷歌研究部门事情的打算机科学家Alexey Dosovitskiy，正在研究打算机视觉，这是一个专注于教打算机如何处理和分类图像的AI子领域。

与该领域的险些所有其他人一样，他当时的常用工具是卷积神经网络（CNN），多年来，这种技能推动了深度学习、尤其是打算机视觉领域的所有重大飞跃。

CNN的事情事理是反复对图像中的像素利用滤波器，以建立对特色的识别。
正是由于卷积功能，照片运用程序可以按面孔组织图片库，或者将云与鳄梨差异开来。

由此，CNN也成为了视觉任务处理中必不可少的工具。

Dosovitskiy正在研究该领域最大的寻衅之一，即扩大CNN的规模，以演习越来越高分辨率图像带来的越来越大的数据集，同时不增延处理韶光。

这时他把稳到，Transformer在NLP任务中险些已经完备取代了此前所有的工具。

那么，是否也能在视觉处理上做到类似效果呢？

这个想法很有洞见。
毕竟，如果Transformer可以处理单词的大数据集，为什么不能处理图片的呢？

终极的结果是一个名为「视觉Transformer」或ViT的神经网络，研究职员在2021年5月的一次会议上展示了该网络。

论文链接：https://arxiv.org/abs/2010.11929

该模型的架构与2017年提出的第一个Transformer的架构险些相同，只进行了眇小的变动，使其能够剖析图像而非笔墨。

ViT团队知道他们无法完备模拟Transformer处理措辞数据的方法，由于每个像素的自把稳力要在模型运行中全部完成，将会极其耗时。

相反，他们将较大的图像划分为正方形的单元，也便是所谓的词元（token）。
词元大小是任意的，由于可以根据原始图像的分辨率变大或变小（默认是每边16像素）。

通过分单元处理像素，并对每个单元运用自把稳力，ViT可以快速处理大量演习数据集，从而产生越来越准确的分类。

Transformer以超过90%的准确率对图像进行分类，这比Dosovitskiy预期的结果要好得多。
在ImageNet分类寻衅赛这项业界标杆性图像识别比赛中，ViT迅速得到榜首。

ViT的成功表明，CNN可能不像很多研究职员认为的那样，是打算机视觉的唯一根本。

与Dosovitskiy互助开拓ViT的Neil Houlsby说：「我认为CNN很可能在不久的未来被视觉Transformer或其衍生品所取代。
」

与此同时，其他的结果也支持了这个预测。

在2022年初的测试中，ViT的更新版本仅次于将CNN与Transformer相结合的新方法。
而之前的冠军CNN模型，现在勉强进入前10名。

Transformer是如何事情的？

ImageNet的结果表明，Transformer的确可以与CNN相反抗。

但是，谷歌的打算机科学家Maithra Raghu想知道它们是否像CNN那样「看到」图像。

虽然神经网络是一个臭名昭著的黑匣子，但有一些方法可以窥伺其内部情形。

比如。
通过逐层检讨网络的输入和输出，从而理解演习数据是如何流动的。

论文链接：https://arxiv.org/abs/2108.08810

对付CNN来说，它会逐个像素地识别图像，通过从局部到全局的办法识别每一个角落或线条的特色。

在自把稳力的加持下，Transformer乃至可以在神经网络的第一层，就把分布在图像两头的信息建立联系。

如果说CNN的方法就像从一个像素开始放大，那么Transformer则是逐步地将全体模糊的图像变得清晰。

这种差异在措辞领域更随意马虎理解。
比如，猫头鹰创造了一只松鼠。
它试图用爪子捉住它，但只抓到了它的尾巴末端。
第二个句子的构造令人困惑。

这些「它」指的是什么？一个只关注紧挨着「它」字的CNN会很费劲，但一个将每个字与其他字联系起来的Transformer可以看出，猫头鹰做了抓取的动作，而松鼠则失落去了部分尾巴。

领悟正在发生

现在研究职员希望将Transformer运用于一项更艰巨的任务：天生新图像。

就像GPT-3等措辞工具可以根据其演习数据天生新文本一样。

于是，在2021年揭橥的一篇论文中，Wang结合了两个Transformer模型，试图对图像做同样的事情。
这是一个困难得多的任务。

论文链接：https://arxiv.org/abs/2102.07074

当双Transformer网络在超过20万名人的面部图片上进行演习时，它以中平分辩率合成了新的面部图像。

根据初始分数（一种评估神经网络天生图像的标准方法），Transformer天生的名人图片令人印象深刻，并且至少与CNN天生的名人图片一样令人信服。

Transformer在天生图像方面的成功，比ViT在图像分类方面的能力更令人惊叹。

同样，在多模态处理方面，Transformer也有了一席之地。

在以前伶仃的方法中，每种类型的数据都有自己的专门模型。
而多模态网络则可以让一个程序除了听声音外，还可以读取一个人的嘴唇。
也便是可以同时处理多种类型数据的模型，如原始图像、***和措辞。

「你可以拥有丰富的措辞和图像信息表示数据，」Raghu说，「而且比以前更深入。
」

新兴项目表明了Transformer在其他AI领域的一系列新用场，包括教机器人识别人体运动、演习机器识别语音中的感情以及检测心电图表示的患者压力程度。

另一个带有Transformer组件的程序是AlphaFold，2021年它因其快速预测蛋白质构造的能力而成为***——这项任务以前须要十年的韶光深入剖析。

利弊

纵然Transformer可以有助于AI工具的领悟和改进，新兴技能常日也会带来高昂的代价，Transformer也不例外。

Transformer在预演习阶段须要更高的算力支撑，然后才能发挥击败传统竞争对手的准确性。

Wang表示，人们总会对高分辨率图像越来越有兴趣。
而由此带来的模型演习本钱上涨，可能是Transformer广泛铺开的一个毛病。

不过，Raghu认为此类演习障碍可以通过繁芜的滤波器和其他工具轻松战胜。

Wang还指出，只管视觉Transformer已经引发了推动AI提高发展的新项目——包括他自己的项目在内，但许多新模型仍旧包含了卷积功能的最精华部分。

这意味着未来的模型更有可能同时利用CNN与Transformer，而不是完备放弃CNN。
而这预示了此类稠浊架构的诱人前景。

或许，我们不应该急于得出Transformer将成为终极模型的结论。

不过可以肯定的是，Transformer越来越有可能成为从业者常光顾的AI五金店里任何一种新的超级工具的必备组件。

参考资料：

https://www.quantamagazine.org/will-transformers-take-over-artificial-intelligence-20220310/

本文系作者个人观点，不代表本站立场，转载请注明出处！

Transformer 图像

「变形金刚」5年代替狂卷的CNN！Transformer将统帅人工智能？_图像_措辞

热门内容

随机文章

推荐内容

最新内容

TAGS标签

「变形金刚」5年代替狂卷的CNN！Transformer将统帅人工智能？_图像_措辞

相关推荐

图像算法驱动视觉智能革命的关键引擎

介绍图像介绍,现代科技中的视觉奥秘

介绍图片拉长术,技术与艺术的完美结合

从动图看编辑的艺术,创新与传承的交织

优化视觉效果,介绍图层缩小方法，让你的设计更上一层楼

栏目热门

热门内容

随机文章

推荐内容

最新内容

TAGS标签