人类看见外形AI看见纹理:从计算机视觉分类失落败谈起_图像_神经收集
在我们不雅观察一张猫的照片时,每每能够很快认出这是橘猫还是虎斑猫——此外,图像是不是黑白、是否存在斑点、是否存在磨损以及褪色等等,也都是不雅观察过程中能够轻松得到的结论。此外,我们还会创造这些小生灵是蜷缩在枕头后边,还是迅捷地跃上一张台面。总而言之,人类总能不知不觉快速学会识别小猫。比较之下,由深度神经网络驱动的机器视觉系统虽然能够在某些特定情形下供应优于人类的识别能力,但一旦构图较为罕见、存在噪点或者其它一些滋扰成分,系统也有可能对一张内容明确的图像束手无策。
最近德国一支研究小组创造了当中令人意想不到的缘故原由:人类对图像里各工具的形状较为敏感,而深度学习打算机视觉算法却常日更关注工具的纹理。
这一创造揭橥在今年5月举办的国际学习代表大会上,紧张强调了人与机器在“思考”办法之间的光鲜差异,并阐述了我们的直觉如何误导人工智能。此外,这项研究也暗示了,人类的视觉为何会发展成本日的形式。
拥有大象皮肤的小猫与由钟表构成的飞机
举例来说,深度学习算法表示为一套神经网络,个中包含着成千上万张有猫或者无猫的图像素材。系统能够从这些数据当中找到模式,而后利用它来决定如何更好地标记自己从未见过的图像。网络的架构类似于人类视觉系统,但建模办法更为疏松——这是由于,个中的连接层许可网络一步步从图像中提取出越来越抽象的特色。然而,这套系统实际上是一种“暗箱”流程,我们只能得到精确答案,却不知道这答案从何而来。并未参与此项研究的俄勒冈州立大学打算机科学家Thomas Dietterich指出,“我们一贯在努力找到使得深度学习打算机视觉算法得出精确结果的缘故原由,以及哪些成分有可能滋扰这种视觉识别能力。”
为了达成这一目标,有些研究职员开始探索,在对图像内容进行修正之后,网络会因欺骗而得出若何的结论。他们创造,某些非常小的变革都有可能导致系统完备缺点地标记图像中的工具——但有些很大的变革,却反而不会让系统修正其标记内容。与此同时,也有其他一些专家通过网络进行了回溯,剖析了个中单一“神经元”在图像中的相应,并据此为系统学习到的特色天生所谓“激活图集”。
个中打算神经科学家Matthias Bethge实验室的一组科学家,以及来自德国蒂宾根大学的生理物理学家Felix Wichmann采纳了更为定性的方法。去年,该团队报告称,当他们在利用特定噪声进行滋扰处理的图像上演习神经网络时,结果创造神经网络在对存在类似失落真滋扰的新图像进行分类方面,表现要优于人类。但只要对这些图像轻微进行一些新的模式调度,就能够完备骗过网络——纵然新的内容扭曲与图中原本存在的扭曲看起来并无不同。
为理解释这一结果,研究职员们预测,大概极低的噪音水平也可能会具有巨大的剖断权重。在这方面,纹理彷佛是个很不错的线索。Bethge和Wichmann实验室研究生,研究论文第一作者Robert Geirhos指出,“如果永劫光添加大量噪音,图像工具的形状成分实在并不会受到太大的影响。但在另一方面,图像中的某些局部构造,在添加一丁点噪音成分时也可能变得极度扭曲。”因此,他们提出了一种奥妙的方法,以测试人类与深度学习系统究竟是如何处理图像的。
Geirhos、Bethge和他们的同事创造出两幅包含相互冲突线索的图像,即工具的形状取自某一物体,纹理则取自另一个物体。例如,用带裂纹的灰色纹理(大象皮肤)添补在猫的轮廓当中;或者制作小熊纹理的铝罐,乃至由钟面堆叠而成的飞机图形等。利用数百张此类图像,人类仍能够根据图像中的形状——猫、熊、飞机等——以极高的准确度进行标记。比较之下,四种不同的分类算法则方向于另一种理解办法,即给出能够反响物体纹理的标记,包括大象、罐头、时钟等。
并未参与此项研究的哥伦比亚大学打算神经科学家Nikolaus Kriegeskorte指出,“这正在改变我们对深度前馈神经网络能够实现视觉识别能力、及其演习过程的理解办法。”
奇怪的是,人工智能采纳的纹理大于形状的理解办法,彷佛很有那么点现实意义。Kriegeskorte表示,“我们实在可以把纹理算作是一种更风雅的形状。”神经系统能够更轻松地锁定高精度形状比例:具有纹理信息的像素数,要远远超过构成工具边界的像素数,而神经网络的第一步便是检测线条与边缘等局部特色。并未参与此项研究的多伦多约克大学打算视觉科学家John Tsotsos指出,“这便是纹理。所有的线段组都以相同的办法进行排列。”
Geirhos和他的同事已经证明,这些局部特色已经足以帮助神经网络完成图像分类任务。事实上,Bethge和该研究的另一位作者,博士后研究员Wieland Brendel在今年5月的大会上也通过一篇论文提到了这一点。在这次事情当中,他们构建起一套深度学习系统,但详细运行办法却与深度学习技能涌现之前的分类算法非常相似——这更像是一种“特色包”。它最初会将图像分割成浩瀚眇小的块(类似于目前的Geirhos等现有模型),但接下来它并不像其它模型那样逐步整合信息并提取高等特色,而是立即识别出每个小块中的图像内容(「这个块中包含自行车的成分,另一块当中包含鸟的成分」等)。它会将这些决策结果叠加在一起以确定工具的实际内容(「如果包含自行车成分的小块更多,那么图像展示的便是自行车」),而完备不考虑不同图块之间的全局空间关系。但便是这种“笨办法”,却能够以惊人的准确度识别物体工具。
Brendel表示,“这一创造寻衅了此古人们所认定的,深度学习技能与原有模型完备不同的假设。很明显……深度学习仍旧代表着一种飞跃,只是不像有些人所希望的那么天翻地覆。”
根据约克大学与多伦多大学博士后研究员Amir Rosenfeld的不雅观点(并未参与此项研究),“我们理解中的神经网络运作办法,与其实际运作办法之间仍旧存在着「巨大的差异」”,个中也包括神经网络对人类行为的复制效果。
Brendel也表达出类似的不雅观点,他表示人们很随意马虎假设神经网络能够像人类一样办理任务,“但我们也忘了、或者说是在刻意忽略个中还存在着别的可能。”
一种更靠近人类的不雅观察方法
目前的深度学习方法可以将纹理等局部特色整合至更多全局模式当中。Kriegeskorte指出,例如在谈到形状时,“论文当中提出了令人惊异、但又非常引人瞩目的证明,即虽然架构能够关注形状,但如果仅仅进行演习(对标准图像进行分类),那么神经网络不会自动提出形状这一观点。”
Geirhos希望看到当团队强制这些神经模型忽略纹理成分时,会发生若何的结果。该团队采取传统上用于演习分类算法的图像,并以不同的样式对图像加以“绘制”,从而在根本上剥离出有用的纹理信息。当他们在新图像上重新演习每套深度学习模型时,这些系统开始逐步关注更大、更为全局的模式,同时也表现出更类似于人类的形状偏好。
在采纳这种办法时,算法能够更好地分辨包含噪音滋扰的图像,乃至无需演习即可识别出个中的内容。Geirhos表示,“基于形状的网络能够供应更强大的识别功能。这让我们意识到,对付特界说务,实在是存在「精确的偏见」这一观点的。以我们的研究为例,形状偏见能够把视觉识别算法推广到更多新颖的场景当中。”
研究还暗示,人类有可能也会自然地产生这种偏见;由于对付前所未有或者滋扰成分较多的情形,形状是一种更为健壮的指标,能够帮助我们更好地定义自己看到的内容。人类生活在一个三维天下当中,很多物体在不同条件、不同角度之下都会呈现出不同的状态。而我们的其它感官,例如触觉,可以根据须要完善物体识别能力。因此,我们的固有思维就认定形状优先于纹理。(此外,也有一些生理学家提出,措辞、学习与人类形状偏见之间的联系;当幼儿接管演习时,他们可以专门学习某些特定类别的单词以更多关注形状成分。如此一来,他们在后续节制名词或物体干系词汇时,每每会表现出较超未演习孩子的学习能力。)
Wichamnn表示,这项事情提醒人们“数据会产生远超我们认知的偏见与影响。”这已经不是研究职员们第一次面对这个难题:人脸识别程序、自动招聘算法以及其它神经网络,此前都已经被证明会过度重视某些出人意料的特色。这是由于这些神经网络所利用的演习数据之内,已经存在着根深蒂固的偏见。事实证明,从决策过程当中肃清这些不必要的偏见每每非常困难,但Wichmann认为这次新研究展示出新的可能性,也让他对此充满信心。
然而,以便Geirhos的模型已经开始关注形状这一成分,也有可能被图像当中的大量噪音或特定像素变革所滋扰——这表明其间隔还原人类视觉能力还有很长的道路要走。(同样的,Tsosenos实验室研究生Rosenfeld、Tsotsos以及Markus Solbach最近也揭橥了研究报告,认为机器学习算法无法像人类那样感知不同图像之间的相似性。)不过Krigeskorte指出,“通过此项研究,我们终于开始触及一个本色性问题——打算机视觉识别算法并没能把握住人类大脑当中的某些主要机制。”而在Wichmann看来,“在某些情形下,关注数据集可能更为主要。”
多伦多大学打算机科学家Sanja Fidler(并未参与此项研究)也对这一不雅观点表示赞许。她阐明称,“详细结果,取决于我们能否设计出聪明的数据与聪明的任务。”她和她的同事目前正在研究如何为神经网络供应赞助,以帮助网络提取出最主要的特色。受到Geirhos调查结果的启示,他们最近演习出一种图像分类算法,其不仅能够识别出物体本身,同时也可以判断哪些像素属于其轮廓或者形状的组成部分。该网络在常规工具识别任务中能够自动提升判断水平。Fidler指出,“只要完成了一项任务,我们就会自然地在关注当中带有选择性,同时忽略掉其它很多不同的成分。但如果面对多个任务,我们可能会创造更多影响要素。这些算法也是如此。”算法在办理各种任务的过程中会“对不同的信息产生偏见”,这与Geirhos在形状与纹理实验中的创造高度契合。
Dietterich总结称,所有这些研究都代表着“在深入理解深度学习中详细步骤与内容方面,一个个令人愉快的阶段。这大概将帮助我们战胜一系列当下困扰着我们的局限。因此,我非常讴歌这次发布的一系列论文。”
本文系作者个人观点,不代表本站立场,转载请注明出处!