清华张钹院士专刊文章:迈向第三代人工智能(全文收录)_模子_深度
来源:清华大学人工智能研究院
作者:张钹、朱军、苏航
在这篇评述文章中,清华大学人工智能研究院院长、中国科学院院士张钹教授阐述了自己对付「第三代人工智能」的意见。他认为,第三代 AI 发展的思路是把第一代的知识驱动和第二代的数据驱动结合起来,通过利用知识、数据、算法和算力等 4 个要素,布局更强大的 AI,目前存在双空间模型与单一空间模型两个方案。本文对这篇评述进行了全文刊载。
全文链接:http://scis.scichina.com/cn/2020/SSI-2020-0204.pdf
人工智能(ArtificialIntelligence,简称 AI)在 60 多年的发展历史中,一贯存在两个相互竞争的范式,即符号主义与连接主义(或称亚符号主义)。符号主义(即第一代人工智能)到上个世纪八十年代之前一贯主导着 AI 的发展,而连接主义(即第二代人工智能)从上个世纪九十年代逐步发展,到本世纪初进入高潮,大有替代符号主义之势。但是本日看来,这两种范式只是从不同的侧面仿照人类的心智 (或大脑),具有各自的片面性,不可能触及人类真正的智能。
清华大学人工智能研究院院长、中国科学院院士张钹教授在「纪念《中国科学》创刊 70 周年专刊」上揭橥署名文章,首次全面阐述第三代人工智能的理念,提出第三代人工智能的发展路径是领悟第一代的知识驱动和第二代的数据驱动的人工智能, 同时利用知识、数据、算法和算力等 4 个要素, 建立新的可阐明和鲁棒的 AI 理论与方法,发展安全、可信、可靠和可扩展的 AI 技能,这是发展 AI 的必经之路。
自 2018 年景立以来,清华大学人工智能研究院本着「一个核心、两个领悟」的发展计策,大力推动人工智能的根本理论和基本方法的源头性和颠覆性创新,在人工智能根本理论、关键技能和产学研互助等诸方面取得了创新成果。人工智能的序幕刚刚拉开,正剧正在上演。根本研究是科技创新的源头,尤其在当前繁芜多变的国际环境下,更须要提升我国的原始创新能力,久久为功,努力实现人工智能领域更多「从 0 到 1」的打破。
以下全文刊载张钹院士的文章《迈向第三代人工智能》。
1 第一代人工智能
人类的智能行为是怎么产生的, 纽威尔 (A.Newell)、西蒙 (H.A.Simon) 等 [1∼4] 提出以下仿照人类大脑的符号模型, 即物理符号系统假设。这种系统包括:
(1) 一组任意的符号集, 一组操作符号的规则集;
(2) 这些操作是纯语法(syntax)的,即只涉及符号的形式不涉及语义,操作的内容包括符号的组合和重组;
(3)这些语法具有系统性的语义阐明,即它所指向的工具和所描述的事态。
1955 年麦卡锡 (J.McCarthy) 和明斯基 (M.L.Minsky) 等学者[5],在达特茅斯人工智能夏季研究项目 (the Dartmouth Summer Research Projecton ArtificialIntelligence) 的建议中, 明确提出符号 AI(artificialintelligence) 的基本思路:「人类思维的很大一部分是按照推理和猜想规则对‘词’(words)进行操作所组成的」。根据这一思路,他们提出了基于知识与履历的推理模型,因此我们又把符号 AI 称为知识驱动方法。
符号 AI 的首创者最初把把稳力放在研究推理(搜索)的通用方法上,如「手段–目的剖析」(meanendanalysis)、「分而治之」(divideandconquer)、「试错」(trialanderror)法等,试图通过通用的方法办理范围广泛的现实问题。由于通用方法是一种弱方法,实际上只能办理「玩具天下」中的大略问题,如机器人摆放积木,下大略的井字棋(tic-tac-toe)等,与办理繁芜现实问题相差很远。寻求通用 AI 的努力遭到了失落败,符号 AI 于 20 世纪 70 年代初跌入低谷。
幸运的是,斯坦福大学教授费根堡姆(E. A. Feigenbaum)等及时改变了思路,认为知识,特殊是特定领域的知识才是人类智能的根本,提出知识工程(knowledgeengineering)与专家系统(expertsystems)等一系列强 AI 方法,给符号 AI 带来了希望。他们开拓了专家系统 DENDRAL(有机化学构造剖析系统,1965∼1975)[6],随后其他学者相继开拓了 MYCIN(血液传染病诊断和抗菌素处方,1971∼1977)[7],XCON(打算机硬件组合系统)等。不过早期的专家系统规模都较小,难以实用。
直到 1997 年 5 月 IBM 的深蓝(deepblue)国际象棋程序打败天下冠军卡斯帕诺夫(Kasparov),符号 AI 才真正办理大规模繁芜系统的开拓问题。费根堡姆和雷蒂(R. Raddy)作为设计与布局大型人工智能系统的先驱,共同得到 1994 年 ACM 图灵奖。
符号 AI 同样可以运用于机器学习,把「机器学习」算作是基于知识的(归纳)推理。下面以归纳逻辑编程(inductivelogicprogramming,ILP)[8]为例解释符号 AI 的学习机制。在 ILP 中正负样本(详细示例)、背景知识和学习结果(假设)都以一阶逻辑子句(程序)形式表示。学习过程是在假设空间中探求一个假设,这个假设应尽可能多地包含正例,只管即便不包含负例,而且要与背景知识同等。一样平常情形下假设空间很大,学习十分困难,不过有了背景知识之后,就可以极大地限定假设空间,使学习变成可行。显然,背景知识越多,学习速率越快,效果也越好。
为办理不愿定问题,近年来,发展了概率归纳逻辑编程方法(probabilisticinductivelogicprogramming,PILP)[9]。基于知识的学习,由于有背景知识,可以实现小样本学习,而且也很随意马虎推广到不同的领域,学习的鲁棒性也很强。以迁移学习(transferlearning)[10]为例,可以将学习得到的模型从一种场景更新或者迁移到另一场景,实现跨领域和跨任务的推广。
详细做法如下,首先,从学习演习的环境(包括演习数据与方法)出发,创造哪些(即具有某种通用性)知识可以跨域或者跨任务进行迁移,哪些只是针对单个域或单个任务的特定知识,并利用通用知识帮助提升目标域或目标任务的性能。这些通用知识紧张通过以下 4 种渠道迁移到目标域中去,即源域中可利用的实例,源域和目标域中可共享的特色,源域模型可利用的部分,源域中实体之间的特定规则。可见,知识在迁移学习中起关键的浸染,因此,符号 AI 易于跨领域和跨任务推广。
在创建符号 AI 中做出重大贡献的学者中,除费根堡姆和雷蒂(1994)之外,还有明斯基(1969),麦卡锡(1971),纽威尔和西蒙(1975)共 6 位先后得到图灵奖(括号中的数字表示获奖的年份)。总之,第一代 AI 的成功来自于以下 3 个基本要素。以深蓝程序为例,第 1 是知识与履历,「深蓝」从象棋大师已经下过的 70 万盘棋局和大量 5∼6 个棋子的残局中,总结出下棋的规则。其余,在象棋大师与深蓝对弈的过程中,通过调试「评价函数」中的 6000 个参数,把大师的履历引进程序。第 2 是算法,深蓝采取α−β剪枝算法,有效提高搜索效率。第 3 是算力(打算能力),为了达到实时的哀求,深蓝利用 IBM RS/6000 SP2, 11.38 G FLOPS(浮点运算 / 秒),每秒可检讨 2 亿步,或 3 分钟运行 5 千万盘棋局(positions)。
符号 AI 有坚实的认知心理学根本,把符号系统作为人类高等心智活动的模型,其上风是,由于符号具有可组合性(compositionality),可从大略的原子符号组合成繁芜的符号串。每个符号都对应着一定的语义,客不雅观上反响了语义工具的可组合性,比如,由大略部件组合成整体等,可组合性是推理的根本,因此符号 AI 与人类理性智能一样具有可阐明性和随意马虎理解。符号 AI 也存在明显的局限性,目前已有的方法只能办理完备信息和构造化环境下的确定性问题,个中最具代表性的成果是 IBM「深蓝」国际象棋程序,它只是在完备信息博弈(决策)中降服人类,这是博弈中最大略的情形。而人类的认知行为(cognitivebehavior),如决策等都是在信息不完备和非构造化环境下完成的,符号 AI 间隔办理这类问题还很远。
以自然措辞形式表示(离散符号)的人类知识,打算机难以处理,必须探求打算机易于处理的表示形式,这便是知识表示问题。我们已有的知识表示方法,如产生式规则(productionrules),逻辑程序(logicprogram)等,虽然打算机易于处理(如推理等),但都较大略,表现能力有限,难以刻画繁芜和不愿定的知识,推理也只限于逻辑推理等确定性的推理方法。更加繁芜的知识表示与推理形式都在磋商之中,如知识图谱(knowledgegraph)[11]、概率推理等[12]。符号 AI 缺少数学根本,除数理逻辑之外,其他数学工具很难利用,这也是符号 AI 难以在打算机上高效实行的主要缘故原由。
基于知识驱动的强 AI 只能就事论事地办理特定问题,有没有广泛适用的弱方法,即通用 AI,目前还是一个值得磋商的问题。此外,从原始数据(包括文本、图像、语音和***)中获取知识目前紧张靠人工,效率很低,须要探索有效的自动获取方法。此外,真正的智能系统须要知识,知识如何获取、表达和推理还是一个有待办理的问题。知识的数量巨大,布局一个实用的知识库,无异于一项 AI 的「曼哈顿工程」,费时费力。
2 第二代人工智能
感官信息(视觉、听觉和触觉等)是如何存储在影象中并影响人类行为的? 有两种基本不雅观点,一种不雅观点是,这些信息以某种编码的办法表示在(影象)神经网络中,符号 AI 属于这一学派。另一种不雅观点是,感官的刺激并不存储在影象中,而是在神经网络中建立起「刺激–相应」的连接(通道),通过这个「连接」担保智能行为的产生,这是连接主义的主见,连接主义 AI 便是建立在这个主见之上。
1958 年罗森布拉特(Rosenblatt)按照连接主义的思路,建立一个人工神经网络(artificialneuralnetwork,ANN)的雏形——感知机(perceptron)[13,14]。感知机的灵感来自于两个方面,一是 1943 年麦卡洛克(McCulloch)和皮特(Pitts)提出的神经元数学模型——「阈值逻辑」线路,它将神经元的输入转换成离散值,常日称为 M-P 模型[15]。二是来自于 1949 年赫布(D. O. Hebb)提出的 Hebb 学习率,即「同时发放的神经元连接在一起」[16]。感知机如图 1 所示。
个中 b 为阈值,w 为权值。
AI 的创建者从一开始就关注连接主义的思路。1955 年麦卡锡等在达特茅斯(Dartmouth)AI 研究建议中写道「如何安排一组(假想的)神经元使之形成观点 ······ 已经得到部分的结果,但问题是须要更多的理论事情」[5],并把它列为会议的研讨内容之一。由感知机组成的 ANN 只有一个暗藏层,过于大略。明斯基等 [17] 于 1969 年出版的书《感知机》中指出,感知机只能办理线性可分问题,而且纵然增加隐层的数量,由于没有有效的学习算法,感知机也很难实用。明斯基对感知机的批评是致命的,使刚刚起步的连接主义 AI 跌入低谷达 10 多年之久。在困难的期间里,在许多学者的共同努力下,30 多年来无论在神经网络模型还是学习算法上均取得重大进步,逐步形成了深度学习的成熟理论与技能。
个中主要的进展有,第 1,梯度低落法(gradientdescent),这本来是一个古老的算法,法国数学家柯西(Cauchy)[18]早在 1847 年就已经提出; 到 1983 年俄国数学家尤里 · 涅斯捷诺夫(YuriiNesterov)[19]做了改进,提出了加强版,使它更加好用。第 2,反向传播(backpropagation,BP)算法,这是为 ANN 量身定制的,1970 年由芬兰学生 SeppoLinnainmaa 在他的硕士论文中首先提出; 1986 年鲁梅哈特(D.E.Rumelhart)和辛顿(G.Hinton)等做了系统的剖析与肯定 [20]。「梯度低落」和「BP」两个算法为 ANN 的学习演习注入新的动力,它们和「阈值逻辑」、「Hebb 学习率」一起构成 ANN 的 4 大支柱。
除 4 大支柱之外,还有一系列主要事情,个中包括更好的丢失函数,如交叉熵丢失函数(cross-entropycostfunction)[21]; 算法的改进,如防止过拟合的正则化方法(regularization)[22]; 新的网络形式,如 1980 年日本福岛邦彦(Fukushima)的卷积神经网络(convolutionneuralnetworks,CNN)[23,24],递归神经网络(recurrentneuralnetworks,RNN)[25],是非程影象神经网络(longshort-termmemoryneuralnetworks,LSTM)[26],辛顿的深度信念网络(deepbeliefnets,DBN)[27] 等。这些事情共同开启了以深度学习(deeplearning)为根本的第二代 AI 的新纪元[28]。
第二代 AI 的学习理论有坚实的数学根本,为相识释这个根本,下面举一个大略的有监督学习的例子,有监督学习可以形式化为以下的函数回归问题: 从数据库 D 中提取样本,对样本所反响的输入–输出关系 f:X→Y做出估计,即从备选函数族(假设空间)F=中选出一个函数 f^∗使它均匀逼近于真实 f。在深度学习中这个备选函数族由深度神经网络表示:
参数学习中有 3 项基本假设。(1)独立性假设: 丢失函数和备选函数族 F(或者神经网络构造)的选择与数据无关。(2)大容量假设: 样本(x_i,y_i)数量巨大(n→∞)。(3)完备性假设: 演习样本完备且无噪声。
如果上述假设均能知足,f^∗将随样本数的增加末了收敛于真实函数 f。由此可见,如果拥有一定质量的大数据,由于深度神经网络的通用性(universality),它可以逼近任意的函数,因此利用深度学习找到数据背后的函数具有理论的担保。这个论断在许多实际运用中得到了印证,比如,在标准图像库 ImageNet(2 万种别,1 千 4 百万张图片)上的机器识别性能,2011 年误识率高达 50%,到 2015 年微软公司利用深度学习方法,误识率大幅度地降到 3.57%,比人类的误识率 5.1% 还要低 [29]。低噪声背景下的语音识别率,2001 年之前基本上勾留在 80% 旁边,到了 2017 年识别率达到 95% 以上,知足商品化的哀求。
2016 年 3 月谷歌围棋程序 AlphaGo 打败天下冠军李世石,是第二代 AI 顶峰之作,由于在 2015 年之前打算机围棋程序最高只达到业余五段!
更加令人惊奇的是,这些超越人类性能成果的取得,并不须要领域知识的帮助,只需输入图像原始像素、语音原始波形和围棋棋盘的布局(图像)!深度学习的成功来自于以下 3 个要素:一是数据,以 AlphaGo 为例,个中 AlphaGo-Zero 通过强化学习自学了亿级的棋局,而人类在千年的围棋史中,下过的有效棋局只不过 3000 万盘。二是算法,包括蒙特卡洛树搜索(Monte-Carlotreesearch)[30]、深度学习和强化学习(reinforcementlearning)[31] 等。三是算力,运行 AlphaGo 的机器是由 1920 个 CPU 和 280 个 GPU 组成的分布系统。因此第二代 AI 又称数据驱动方法。
在创建第二代 AI 中做出重大贡献的学者中,有以下 5 位得到图灵奖。他们是菲丽恩特(L. G. Valiant,2010)、珀尔(J. Pearl,2011)、本杰奥(Y. Bengio,2018)、辛顿(G. Hinton,2018)、杨立昆(Y. LeCun,2018)等。
早在 2014 年,深度学习的诸多毛病不断地被创造,预示着这条道路碰着了瓶颈。下面仅以基于深度学习的图像识别的一个例子解释这个问题(材料引自本团队的事情)。文献 [32] 表示利用基于动量的迭代快速梯度符号法(momentumiterativefastgradientsignmethod,MI-FGSM)对 Inceptionv3 深度网络模型履行攻击的结果。无噪声的原始图像——阿尔卑斯山(Alps),模型以 94.39% 的置信度得到精确的分类。利用 MI-FGSM 方法经 10 次迭代之后天生攻击噪声,将此攻击噪声加进原图像后得到攻击样本。由于加入的噪声很小,天生的攻击样本与原始图险些没有差异,人类无法察觉,但 Inceptionv3 模型却以 99.99% 的置信度识别为「狗」。
深度学习为何如此薄弱,这样随意马虎受攻击,被欺骗和不屈安,缘故原由只能从机器学习理论本身去探求。机器学习的成功与否与 3 项假设密切干系,由于不雅观察与丈量数据的不愿定性,所获取的数据一定不完备和含有噪声,这种情形下,神经网络构造(备选函数族)的选择极为主要,如果网络过于大略,则存在欠拟合(under-fitting)风险,如果网络构造过于繁芜,则涌现过拟合(overfitting)征象。虽然通过各种正则化的手段,一定程度上可以降落过拟合的风险,但是如果数据的质量差,则一定会导致推广能力的严重低落。
此外,深度学习的「黑箱」性子是造成深度学习推广能力差的另一个缘故原由,以图像识别为例,通过深度学习只能创造重复涌现的局部片段(模式),很难创造具有语义的部件。文献 [33] 描述了利用深度网络模型 VGG-16 对「鸟」原始图像进行分类,从该模型 pool5 层 147 号神经元的相应可以看出,该神经元最强烈的相应是「鸟」头部的某个局部特色,机器正利用这个局部特色作为区分「鸟」的紧张依据,显然它不是「鸟」的不变语义特色。因此对付语义完备不同的对抗样本(人物、啤酒瓶和马等),由于具有与「鸟」头部相似的片段,VGG-16 模型 pool5 层 147 号神经元同样产生强烈的相应,于是机器就把这些对抗样本缺点地判断为「鸟」。
3 第三代人工智能
第一代知识驱动的 AI,利用知识、算法和算力 3 个要素布局 AI,第二代数据驱动的 AI,利用数据、算法与算力 3 个要素布局 AI。由于第一、二代 AI 只是从一个侧面仿照人类的智能行为,因此存在各自的局限性。为了建立一个全面反响人类智能的 AI,须要建立鲁棒与可阐明的 AI 理论与方法,发展安全、可信、可靠与可扩展的 AI 技能,即第三代 AI。其发展的思路是,把第一代的知识驱动和第二代的数据驱动结合起来,通过同时利用知识、数据、算法和算力等 4 个要素,布局更强大的 AI。目前存在双空间模型与单一空间模型两个方案。
3.1 双空间模型
双空间模型如图 2 所示,它是一种类脑模型,符号空间仿照大脑的认知行为,亚符号(向量)空间仿照大脑的感知行为。这两层处理在大脑中是无缝领悟的,如果能在打算机上实现这种领悟,AI 就有可能达到与人类相似的智能,从根本上办理目前 AI 存在的不可阐明和鲁棒性差的问题。为了实现这种目标,须要办理以下 3 个问题。
3.1.1 知识与推理
知识 (包括知识) 与推理是理性智能的根本, 在第一代 AI 中, 以物理符号系统仿照人类的理性 智能, 取得显著的进展, 但无论在知识表示还是推理方法上都有大量的问题须要进一步磋商。下面以 IBMDeepQA 项目[34] 为例解释最近的进展, 之以是选择这个例子是由于基于 DeepQA 构成的 Watson 对话系统, 在 2011 年 2 月美国电视 「危险边缘」 智力竞赛节目中, 以压倒上风降服全美冠军 K. 詹宁斯 (KenJennings) 和 B. 拉特 (BradRutter), 表明 Watson 是一个成功的 AI 系统。Watson 关于知识 表示和推理方法的以下履历值得借鉴: (1) 从大量非构造化的文本自动天生构造化知识表示的方法, (2) 基于知识质量的评分表示知识不愿定性的方法, (3) 基于多种推理的领悟实现不愿定性推理的方法。
Watson 系统将 「问答」(question-answer) 算作是基于知识的从 「问题」 到 「答案」 的推理, 为了达 到人类的答题水平, 打算机须要拥有与人类冠军一样乃至更多的知识。个中包括百科全书、主题词表、 词典、专线***宣布、文学作品等互联网上数量巨大 (相称于 2 亿页的纸质材料) 的文本, 这些文本是 非构造化的, 而且质量参差不齐, 须要把这些非构造化的文本自动转换为构造化且易于处理的表达形 式。Watson 系统利用的表达形式为 「扩展语料库」(expendedcorpus) , 它的天生步骤如下。首先给出 基线语料库 (baselinecorpus) 判别种子文件 (seeddocuments) , 根据种子文件从网上网络干系文件 并 并 从中挖掘 「文本核 」(textnuggets) , 对文本核做评分 按 按照评分结果集成为末了的 「扩展语料库」。
除自动天生的扩展语料库之外, Watson 的知识库中还包括已有的语料库, 如 dbPedia, WordNet, Yago 等, 以及人工体例的部分库。Watson 采取多种推理机制 (多达百种) 将 「问题」 转换为 「答案」(见图 3)。先对 「问题」 做剖析、分类和分解, 根据分解的结果从答案源 (语料库) 中搜索假设与候选答 案, 经初步过滤之后, 筛选出 100 个旁边候选答案。再从证据源中网络证据, 对候选答案进行评分, 评 估过程同时考虑数据源的可靠性, 依据评分结果合成出几种候选答案, 按照置信度大小进行排序, 末了输出排序后的答案。
此外,Watson 还通过 155 场与人类现场对决和 8000 次的实验,学习对「问题」(自然措辞)的理解。
3.1.2 感知
符号主义用符号系统作为人类心智的模型, 以实现与人类相似的推理能力。但从认知的角度看, 二者却有实质上的不同, 即存在 「符号根本问题」(symbolgroundingproblem)[35]。在物理符号系统中, 客不雅观天下的 「工具」 和 「关系」 等用符号表示, 但符号本身并无语义, 我们只年夜大好人为地给它们规定语义, 也便是说是外部强加的 「寄生语义」(parasiticsemantics) , 机器本身并不知道。这与人类大脑中存在的 「内在语义 」(intrinsicsemantics) 完备不同, 人类大脑中的 「内在语义」, 特殊是 「原子观点」 和 「知识」, 除极少数先天之外, 紧张是通过感官 (视听等) 或者感官与动作的结合自我习得的, 即将感官图符式 (iconic) 表示或反响语义不变性的分类 (categorical) 表示转化为符号表示。这本来是深度学习要完成的任务, 但很可惜, 目前深度学习的模型并不能完成这项义务。由于深度学习所处理的空间是特色空间, 与语义空间差别很大, 它只能学到没有明确语义的 「局部片段」, 这些片段不具备可组合性, 因此不 能用来作为 「物体」 的 「内在语义」 表示。换句话讲, 目前的深度学习只能做到 「觉得」(sensation) , 达不到感知 为 为达到感知的水平 , 机器必须通过自我学习获取 「物体」 的语义部件 (semanticparts) , 如 「狗」 的腿、头、尾等,才有可能通过这些部件的组合形成 「狗」 的不变 「内在语义」。办理这个问题的基本思路是利用知识为勾引,将觉得的信息从向量特色空间提升到符号语义空间,如图 2 所示。这方面已经有不少的研究事情 [36∼39] ,下面以本团队的事情阐述这方面事情的初步进展。
文献 [40] 描述如何利用一个三元天生对抗网络 (triplegenerativeadversarialnetworks , Triple-GAN) 提高图像分类性能的方法。三元天生对抗网络由 3 部分组成: 分类器、天生器和鉴别器,分别用于条件化图像天生和半监督学习中的分类。天生器在给定真实标签的情形下天生伪数据,分类器在给定真实数据的情形下天生伪标签,鉴别器的浸染是区分数据标签对是否来自真实标记的数据集。如果设计好得当的效用函数,利用三元天生对抗网络,可以通过无监督(或弱监督)学习,让天生器(网络)学到样本中「物体」的表示(即先验知识),同时利用这个先验知识改进分类器的性能。
此项研究表明,通过 ANN 的无监督学习可以学到「物体」的先验知识,这便是「物体」(符号)的「内在语义」。利用这个具有「内在语义」的先验知识提高分类器的识别率,从根本上办理打算机视觉中存在的「检测」(where)与「识别」(what)之间的抵牾,实现小样本学习,提高鲁棒性和推广能力。
还可以从其余的角度思考,先回到深度学习所利用的人工神经网络(图 4),以视觉为例,它与人类的视觉神经网络比较过于大略了,既没有反馈连接,同层之间的横向连接和抑制连接,也没有稀疏放电、影象和把稳等机制。如果我们能够将这些机制引进 ANN,将会逐步提高打算机视觉的感知能力。由于我们对大脑视神经网络的事情事理理解得很少,目前只能沿着「脑启示打算」(brianinspiredcomputing)的道路一步一步地往前探索。
目前有一些试探性的事情,有些效果但都不足显著。下面先容本团队的一项研究。如文献 [41] 所述,将稀疏放电的事理利用到 ANN 各层的打算中。网络共 6 层,包括 Gabor 滤波和 Max 池化等,在各层的优化打算中加上「稀疏」正则约束项,稀疏性的哀求迫使 ANN 选择最具代表性的特色。如果用背景大略的「人类」「小汽车」「大象」和「鸟」等图像作为演习样本演习网络,那么神经网络的输出层就会涌当代表这些「种别」的神经元,分别对人脸、小汽车、大象和鸟的轮廓做出相应,即提取了「全体物体」的语义信息,形成部分的「内在语义」。
这种方法也只能提取部分的语义信息,还不能做到提取不同层面上的语义信息,如「整体」、「部件」和「子部件」等,达到符号化的水平,因此仍有许多事情有待研究。
3.1.3 强化学习
上面说过通过感官信息有可能学到一些基本知识(观点),不过仅仅依赖感官信息还不足,比如「知识观点」,如「用饭」「睡觉」等仅依赖感官难以获取,只有通过与环境的交互,即亲自履历之后才能得到,这是人类最基本的学习行为,也是通往真正 AI 的主要道路。强化学习(reinforcementlearning)便是用来仿照人类的这种学习行为,它通过「交互–试错」机制,与环境不断进行交互进而学习到有效的策略,很大程度上反响了人脑做出决定的反馈系统运行机理,成为当古人工智能打破的主要方法,在***游戏[42,43]、棋牌游戏[44,45]、机器人导航与掌握[46,47]、人机交互等领域取得了诸多成果,并在一些任务上靠近乃至超越了人类的水平[48,49]。
强化学习常日算作是离散韶光的随机掌握过程,即智能体与环境的交互过程。智能体从起始状态出发,取得起始不雅观察值,在 t 时候,智能体根据其内部的推理机制采纳行动之后,得到回报,并转移到下一个状态,得到新的不雅观察。强化学习的目标是,选择策略π(s,a)使累计回报预期 V^π(s):S→R 最优。如果我们考虑大略的马尔可夫(Markov)决策过程,即后一个状态仅取决于前一个状态,并且环境完备可不雅观察,即不雅观察值 o 即是状态值 s,即 O=S; 并假设策略稳定不变。如图 5 所示。以 AlphaZero 为例,智能体不依赖人类的标注数据,仅仅通过自我博弈式的环境交互积累数据,实现自身策略的不断改进,终极在围棋任务上达到了超越人类顶级大师的水平,代表强化学习算法的一个巨大进步[45]。
强化学习算法在选择行为策略的过程中,须要考虑环境模型的不愿定性和目标的长远性。详细的,通过值函数也便是未来累积褒奖的期望衡量不同策略的性能,即
个中γ∈[0,1]是折扣因子。值函数可以写成贝尔曼方程(Bellmanequation)的形式。该方程表示了相邻状态之间的关系,可以利用其将决策过程划分成多个不同的阶段,个中某一阶段的最优决策问题可以利用贝尔曼方程转化为下一阶段最优决策的子问题。
强化学习的核心目标便是选择最优的策略,使得预期的累计褒奖最大,即值函数取得最优值
须要指出的是,只管强化学习在围棋、***游戏等任务上得到了极大的成功,但是这些任务从实质上是相对「大略」的,其任务的环境是完备可不雅观察的、反馈是确定的、状态紧张是离散的、规则是明确的,同时可以相比拟较廉价地得到大量的数据,这些都是目前人工智能算法所善于的。但是在不愿定性、不完备信息、数据或者知识匮乏的场景下,目前强化学习算法的性能每每会涌现大幅度的低落,这也是目前强化学习所面临的主要寻衅。个中的范例问题如下所述。
(1)部分不雅观测马氏决策过程中强化学习: 在真实的问题中,系统每每无法感知环境状态的全部信息,因此不仅须要考虑动作的不愿定性,同时也须要考虑状态的不愿定性。这就导致了部分感知的强化学习每每不知足马尔可夫环境假设。只管干系的研究者近年来进行了大量的探索,但是部分不雅观测马氏决策(partiallyobservableMarkovdecisionprocess,POMDP)仍旧是强化学习中比较有寻衅的问题。
(2)领域知识在强化学习中的领悟机制: 如何实现领域知识的领悟在强化学习中同样是主要科学问题。对提高收敛速率、降落采样繁芜度、改进模型迁移性和算法鲁棒性等具有主要意义。本团队针对这一问题,在领域知识辅导的动作空间抽象压缩 [50]、构造设计[51] 等方面进行了初步探索,但是如何实现领域知识和强化学习框架的高效领悟仍旧是亟待办理的问题。
(3)强化学习和博弈论的结合: 博弈论和强化学习的结合是近年来领域内研究的热点问题。二者的结合可以让多智能体之间的竞争和互助关系的建模变得更加直不雅观和清晰,这个中包含了多智能体之间的零和 / 非零和、完备信息 / 非完备信息等多种不同的任务类型,尤其是在对抗性的任务中更具有研究和运用代价[43]。本团队前期在这方面也进行了探索性的研究,将智能体对环境的探索建模成智能体和环境之间的博弈过程[52],也是目前第一个在扩展型博弈、参数未知的场景下能够从理论上担保收敛的算法。
除此之外,强化学习所面临的难题还包括仿真环境和真实环境的差异、探索和利用的抵牾、基于模型的强化学习算法等诸多难点的问题,比较于监督学习所得到的成功而言,强化学习的研究还处于相对较为低级的阶段。
3.2 单一空间模型
单一空间模型因此深度学习为根本,将所有的处理都放在亚符号(向量)空间,这显然是为了利用打算机的打算能力,提高处理速率。问题在于深度学习与大脑的学习机制不同,在许多方面表现不佳,如可阐明性和鲁棒性等。关键是要战胜深度学习所带来的毛病,如图 6 所示。下面谈论几个关键问题。
3.2.1 符号表示的向量化
知识常日以自然措辞的离散符号形式表示,为了实现单一空间模型,首先要将符号表示的词、短语、句子和篇章等转换为向量,或者将知识图谱转换为向量表示。关键是「词」的变换,即词嵌入(wordembedding)。目前「词嵌入」已有各种方法,如 Word2Vec[53]和 GloVe[54]等。
下面先容 Word2Vec 中采取的 Skip-gram[55]策略,用来解释词是如何由符号转换为向量的。
个中 w 是给定的目标词,c 是从其高下文中任选的一个词,p(c|w;θ)是给定词 w 下,词 c 涌现的概率。D 是从语料库中提取的所有 w−c 对,θ是模型参数,式(5)进一步参数化后,得到
个中是词 c 和词 w 的向量表示,C 是所有可用文本。参数
,i=1,2,...d,共 | C|×|W|×d 个。调度这些参数使式(5)最大化,末了得到所有词 w∈W 的向量表示。
这些词向量具有以下良好的性子,即「语义相似的词,其词向量也很相似」(见图 7)。变换后的词向量之以是具有上述良好的性子,出自嵌入过程的以下假设,两个词在高下文中同现的频率越高,这两个词的语义越可能靠近,或者越可能存在语义上的某种关联。嵌入词向量的这些特性,表明它带有语义信息,因此称嵌入空间为准语义空间。式(5)是难打算的,可以采取深度神经网络等做近似打算。利用类似的嵌入法也可以把「短语」「句子」和「篇章」或者知识图谱等转换到具有准语义的向量空间中去[56]。
向量形式的知识表示具有上述良好的性子,且可以与数据一样,利用大量的数学工具,包括深度学习方法,因此被大量运用于文本处理,如机器翻译等,取得明显的效果。下面以神经机器翻译(neuralmachinetranslation)为例予以解释[57,58]。
神经机器翻译的基本思路是,给定源句子(比如中文),探求目标句(比如英文)。神经翻译的任务是,打算词一级翻译概率的乘积,
个中θ是一组模型参数,是部分翻译结果。词一级的翻译概率可用 softmax 函数 f(·)定义:
个中是目标句中第 j 个词的向量表示,v_x 是源句子的向量表示,是部分翻译句的向量表示,y=y_j,j=1,2...,J 是要找的目标句。
神经翻译模型的布局: 给定演习样本为一组「源句–目标句」对,模型演习的目标是最大化 log 似然:
即选择一组模型参数θ,使目标函数最大化。利用这个模型,通过式(7)打算(翻译)目标句子。这种翻译方法只管可以得到比传统方法缺点率还低的翻译结果,但它具有深度学习方法的共性毛病,如不可阐明、会发生重大缺点、鲁棒性差等。为战胜这些毛病,须要加入知识,通过先验知识或后验正则化等办法引入措辞知识等。
3.2.2 深度学习方法的改进
基于深度学习的 AI 具有不可阐明和鲁棒性差等毛病,目前有许多改进事情。下面先容本团队的一些事情。
(1)可阐明性问题。可阐明人工智能算法的研究近年来引起浩瀚研究职员的关注。而人类理解机器决策过程的核心难点是超过数据特色空间和人类语义空间之间的鸿沟[59]。无论是早期的以手工特色为根本的算法,还是当前以特色学习为代表的深度学习,其核心思想都是将不雅观测样本映射到特色空间中,进而在特色空间进行剖析,创造样本在特色空间不同区域内的规律,从而达到算法要实现的任务目标(如分类、回归等)。与之不同的是,人类的剖析和决策是利用自身的背景知识,在语义空间当中完成。但是数据特色空间和人类的语义空间在构造和内涵上存在显著的差异,而可阐明人工智能的终极便是要在二者之间架起一座桥梁,进而超过二者之间的鸿沟。
总体而言,干系的研究紧张分为(i)模型的后阐明技能(post-hocexplanation),也便是给定了人工智能的模型,通过可视化、交互技能等办法,剖析给定模型的事情机理,为其决策结果探求阐明路子;(ii)可阐明模型,即通过发展新的网络架构、丢失函数、演习办法等,发展具有内在可阐明性的新型人工智能模型。从整体来说,两类方法目前都在发展过程中,在可阐明性的研究中具有主要浸染。
可视剖析是人工智能算法可阐明的一种直不雅观的思路。既然深度学习是「黑箱」学习法,内部的事情机理是不透明的,「不可阐明」,如果利用可视化,打开「黑箱」,统统不就清楚了吗? 为了帮助机器学习专家更加理解卷积神经网络的事情机理,我们开拓了 CNNVis 这一可视剖析工具[60]。CNNVis 旨在帮助专家更好地理解与诊断深度卷积神经网络,作为一种稠浊可视化方法,综合运用了基于双聚类技能的边绑定方法,以及矩形布局算法、矩阵重排算法和有向无环图布局算法等。作为可视化领域的首批深度学习可视剖析事情,该事情在工业界和学术界都引起了广泛关注。在此根本上,为了剖析繁芜神经网络的演习过程,我们以深度天生模型(对抗天生网络(generativeadversarialnetworks,GAN)和变分自编码器(variationalauto-encoder,VAE))为例,研究了如何帮助机器学习专家诊断演习过程中涌现的常见问题。
阐明模型的其余一个思路是利用部分统计剖析的技巧,针对神经网络决策过程中的参数冗余性,对神经网络内部末了决策起到关键浸染的子身分进行剖析,得到繁芜模型内部对决策起到最关键浸染的核心部分。为了更高效发掘子网络,我们借鉴了网络剪枝(networkpruning)思路,提出一种普适的提取子网络的方法,而无需对模型从头进行演习[61]。详细来说,我们对网络中每一层都附加一组掌握门(controlgate)变量,在知识蒸馏[62](knowledgedistillation)准则下优化该组变量掌握各层输出通道,用以确定关键子网络。详细来说,令 p(y | x;θ)为具有权重参数θ的原始模型对付单个样本 X 所做出的预测概率。而我们想要提取参数为θ_s 的关键子网络,其预测输出应为 q(y | x;θ_s),该当与原模型输出结果在 Kullback-Leibler 散度度量下靠近。因此总体最小化目标函数为
个中Ω(θ_s)为稀疏正则项,即鼓励模型通过只管即便少的激活神经元达到和原网络相似的性能。通过对关键子网络可视化剖析,我们不雅观察到对付样本特定子网络,各层掌握门值表征形式随着层级增高而展现出种别区分特性。实验结果表明,对付种别特定子网络,其整体表征形式与种别语义之间有着密切联系。
以上方法更多的关注是模型的后阐明,也便是给定一个深度学习模型「强行」寻求对其决策过程的阐明,而这种阐明是否符合神经网络的内在机理仍旧是须要谈论的问题。由于深度学习模型的不可阐明性是由于机器推理的特色空间和人类可理解的空间存在着实质的差异,因此深度学习要想实现可阐明性就须要把机器特色空间和人类的语义空间联系起来。本团队也在此方面进行了探索性研究[63],紧张针对如何将人类的先验知识融入到深度学习模型的演习中,使特色具有更加明确的语义内涵,从而能够做到决策的追溯。详细的,在图文的联合剖析中,我们利用文本信息中抽取出来的人类可理解的主题信息辅导神经网络的演习过程,并对文本和图像 / ***数据进行协同演习,勾引神经网络演习得到人类可以理解的语义特色。详细的,我们通过在神经网络的目标函数中引入可阐明的正则约束:
个中第 1 项是干系任务的丢失函数,第 2 项是可阐明正则约束。通过这种方法,可以在文本数据勾引下,通过不同模态数据之间的信息互补性,利用可阐明正则约束,提升深度学习模型的可阐明性。
(2)鲁棒性问题。由于对抗攻击给深度学习模型带来的潜在的恶意风险,其攻击不但精准且带有很强的通报性,给深度学习模型的实际运用带来了严重的安全隐患,急迫须要增强深度学习模型自身的安全性,发展相应的深度学习防御算法,降落恶意攻击带来的潜在威胁[64]。详细来说,目前的深度学习防御算法紧张有两类思路。
第 1 是基于样本 / 模型输入掌握的对抗防御。这类方法的核心是在模型的演习或者利用阶段,通过对演习样本的去噪、增广、对抗检测等方法,降落对抗攻击造成的危害。个中去噪器由于不改变模型自身的构造和性子,具有「即插即用」的性子,引起了广泛的关注。但是由于对抗噪声的分外属性,其形成的滋扰效应每每可以随着神经网络的加深逐步放大,因此在普通的高斯噪声(Gaussiannoise)上具有良好滤除效果的自编码器每每不能很好地滤除对抗噪声。
针对这一问题,本团队提出了基于高层表示勾引的去噪器(HGD)[65],通过高层特色的约束使得对抗样本与正常样本引起目标模型的上层神经元相应尽可能同等。将传统像素级去噪网络 DAE(denoisingautoencoder)与 U-net 网络构造进行结合,到负噪声输出,用对抗样本加上负噪声可以得到去噪图片,即。研究表明该方法不仅去掉了一部分对抗扰动,还增加了一部分「反对抗扰动」,取得了非常好的防御效果,得到「NIPS2017 对抗性攻防竞赛」中对抗防御任务冠军,以及 2018 年在拉斯维加斯(LasVegas)举办的 CAADCTF 对抗样本约请赛冠军。
第 2 是基于模型增强的对抗防御。这类方法的核心是通过修正网络的构造、模型的激活函数、丢失函数等,演习更加鲁棒的深度学习模型,从而提高对对抗攻击的防御能力。个中集成模型(ensemble)是近年来涌现的一类范例的防御方法。针对经典集成防御由于各个子模型的相似性导致防御性能低落的问题,本团队提出自适应多样性增强演习方法(adaptivediversitypromotingtraining,ADP)[66]。比较于经典集成模型,ADP 方法在演习函数中额外引入了多样性正则项,鼓励每个子模型在精确种别上决策同等,而在其他种别上预测不一致。由于其他种别包括所有潜在的对抗样本的目标种别,以是这种不一致性可以使得各个子模型难以被同时欺骗,从而增强集成模型的鲁棒性。详细来讲,在 ADP 方法中,为了担保每个子模型的最大预测都对应于精确的种别,这种多样性定义在每个子模型输出的非最大预测上,当不同子模型的非最大预测向量相互正交时,这种多样性取得最大值。详细的,其演习的目标函数为
个中,;为每个子模型 k 的交叉熵(cross-entropy)丢失函数。ADP_α,β(x,y)=α·H(F)+β·log(ED)是模型集成多样性的度量,鼓励不同的子模型形成只管即便差异化的决策边界。实验结果表明,通过鼓励不同子模型的差异化决策性子,有效地提升了模型的对抗鲁棒性。但是,总体而言,目前多数的对抗防御方法是基于履历主义的,研究表明很多防御对抗样本的方法在很短的韶光就会被后来的攻击算法攻破。其主要缘故原由之一是深度学习只是在做大略的函数拟合,缺少像人一样对问题的理解能力[67]。因此通过理解机器学习模型的内部事情机理,发展数据驱动和知识驱动领悟的第三代人工智能理论框架,将成为提高人工智能算法鲁棒性的主要路子。
但是,总体而言,目前多数的对抗防御方法是基于履历主义的,研究表明很多防御对抗样本的方法在很短的韶光就会被后来的攻击算法攻破。其主要缘故原由之一是深度学习只是在做大略的函数拟合,缺少像人一样对问题的理解能力[67]。因此通过理解机器学习模型的内部事情机理,发展数据驱动和知识驱动领悟的第三代人工智能理论框架,将成为提高人工智能算法鲁棒性的主要路子。
3.2.3 贝叶斯深度学习
如图 6 所示,图像和语音等信息是在特色空间中处理的,这些特色语义信息很少,须要提取含有更多语义的特色,个中的一种办理办法是将知识引入深度学习。下面以贝叶斯深度学习为例,解释这一思路。
我们前面说过深度神经网络没有考虑数据不雅观测的不愿定性,这种不愿定性的存在,以及对付数据背后物理背景的无知,使我们对深度学习结果的精确性难以判断。同时,在数据量有限但模型逐渐变大(如包括十亿乃至千亿参数)的过程中,模型的不愿定性也变得更严重——存在很多模型在演习集上表现都很好,但在测试集上的表现差别很大。贝叶斯学习充分考虑了先验知识以及模型和数据的不愿定性,而且还能从不断供应的数据(证据)中,加深对数据的理解,即根据新的证据实现增量式的学习,充分发挥知识在学习中的浸染。不仅可以对学习结果的可信度做出判断,也因此提高了学习的效率和准确度。
贝叶斯学习(Bayesianlearning)定义: 给定不雅观测数据 d∈D,按贝叶斯规则打算每个假设的概率,
个中 D 是所有数据[12,68]。给定 d
是对未知量 X 的预测,即通过不雅观测数据确定各个假设的概率,再从各个假设确定未知量 X 的分布。个中的关键是假设先验 p(h_i)和给定假设 h_i 下数据 d 的似然 p(d|h_i)。贝叶斯预测(式(13))不管样本量大小,均可达到最优,但当假设空间很大时,式(13)的加法打算量太大(在连续情形下为积分),难以实际运用。常日须要采取近似算法,紧张有两类近似方法——变分推断和蒙特卡洛采样[69]。其余,还有一些常见的简化有,(1)对 X 的预测不是利用所有的假设,而只利用个中让 p(h_i|d)最大化的一个 h_i,称为最大化后验(maximumaposteriori,MAP)假设。(2)假定 p(h_i)是均匀分布,问题就简化为,选择一个让 p(d|h_i)最大化的 hi,称为最大化似然(maximumlikelihood,ML)假设。(3)如果不是所有数据都可以不雅观测,即存在隐变量,常日采取 EM(expectationmaximization)算法[70]。该算法分为两步(式(14)),E 步: 利用不雅观测的数据 x 和θ^(i),打算 p(Z=z|x;θ^(i));M 步: 利用打算出来的 z 和 x,打算模型参数θ^(i+1)。两个步骤交替进行,找到终极的模型参数θ:
贝叶斯准则 (式 (12)) 是一个从先验分布和似然函数推断后验分布的过程, 为了更灵巧地考虑知识, 我 们团队提出了正则化贝叶斯 (regularized Bayesian inference, RegBayes) [71] , 它基于贝叶斯定理的信息 论描述 [72] , 通过引入后验正则化, 在变分优化的框架下可以灵巧地考虑领域知识 (如基于逻辑表达式 的知识 [73] ) 或者学习任务优化的目标 (如最大间隔丢失 [74] ) 等.
更进一步的, 贝叶斯深度学习是将贝叶斯学习的基本事理与深度神经网络的表示学习有机领悟的 一类方法, 领悟紧张表示在两个方面, (1) 用贝叶斯方法更好地学习深度神经网络 (如贝叶斯神经网络、 高斯过程等), 包括打算预测的不愿定性、避免过拟合等; (2) 用深度神经网络作为非线性函数变换定 义更加丰富灵巧的贝叶斯模型, 如图 8 所示, 包括深度天生模型 (如 GAN, VAE, 基于可逆变换的流模 型等). 个中第 1 种领悟早在 20 世纪 90 年代就被霍普菲尔德 (J. Hopfield) 和辛顿辅导博士生系统研究过 [75, 76] , 当时的算力和数据都很有限, 轻微大一点的神经网络都面临着严重的过拟合, 因此, 那时 候就开始研究用贝叶斯方法保护神经网络, 并且选择得当的网络构造. 随着神经网络的加深, 贝叶斯 方法又引起了很多研究兴趣, 紧张进展包括对深度贝叶斯神经网络进行高效的 (近似) 打算, 须要战胜 的紧张困难是深度网络过参数化 (over-parametrization) 带来的维数灾害. 在这方面, 我们团队进行了 深入研究, 先后提出了隐式变分推断 (implicit variational inference) 算法 [77, 78] , 在泛函空间进行粒子 优化的推断算法 (functional variational inference) [79] 等.
对付第 2 种领悟, 我们知道一个大略分布的随机变量 z 经由函数 f 变革之后, 得到的变量 x = f(z), 具有更繁芜的分布, 当 f 是一个双射变换时, 我们可以得到 x 分布的解析形式
但是, 在处理繁芜数据时, f 是未知的, 因此, 我们希望从数据中进行学习. 利用深度神经网络的强大拟合能 力, 我们将 f 定义成一个深度神经网络, 通过一定的准则学习最优的 f_θ. 如图 8 所示, 这种想法被证明是非常有效的, 已经发展了包括 VAE, GAN 以及基于流的模型 (flow-based models), 纵然在完备无 监督演习下, 这些模型都可以产生高质量的自然图片或人脸等.
详细的, 这几种模型的差异在于定义 x 的变革函数, 在 VAE 中,
个中 ϵ 是一个噪声变量 (如白噪声对应的标准高斯分布); 在 GAN 和基于流的模型中, 没有显式的噪声变量。这种差异带来了参数估计上的不同, VAE 和基于流的模型采取最大似然估计, 而 GAN 定义了对抗学习的目标——「最大最小博弈」。同样的, 这些模型虽然功能强大, 但是给推断和学习也带来了很多寻衅。例如, GAN 网络的演习过程常常是不稳定的, 会碰着梯度消逝或梯度爆炸等问题, 我们团队最新的成果利用掌握论对这一问题进行了剖析研究, 提出了有效的反馈机制, 能够让 GAN 的演习更平稳[80]。此外, 基于可逆变换的流模型每每受限于维数的约束, 为此, 我们提出了自适应数据增广的流模型 [81] , 显著提升这类模型的表达能力。
基于上述先容, 能够看出贝叶斯深度学习供应了一种强大的建模措辞, 将不愿定性建模和推断与深度表示学习有机领悟, 其关键寻衅在于推断和学习算法。幸运的是, 近年来, 在算法方面取得了很多打破进展 (如上所述)。同时, 也发展了性能良好的概率编程库, 支持贝叶斯深度学习模型的开拓和部 署。例如, 我们团队研制的「珠算」[82]1) , 是最早的系统支持贝叶斯深度学习的开源库之一。在运用方面, 贝叶斯深度学习的方法已经在韶光序列预测、半监督学习、无监督学习、小样本学习、持续学习 等繁芜场景下, 取得良好的效果.
3.2.4 单一空间中的打算
如图 6 所示, 我们要在单一的向量空间中, 对来自文本的嵌入向量和来自视听觉的特色向量进行 打算, 存在一定的难度. 由于文本中以符号表示的词, 经嵌入之后变成向量时丢失了大量语义, 从视听觉中提取的特色, 虽然我们只管即便获取更多的语义, 但一样平常情形多属底层特色, 语义含量很少.
我们将以视觉问答 [83∼85] 为例先容这方面的初步考试测验. 在视觉问答中既有图像又有文本, 须要在单一的向量空间中同时处理, 涉及单一空间模型的利用。以本团队关于 「篇章级图文问答」 研究事情为例予以解释[85] 。如图 9 所示, 根据给定的图片, 回答以下问题, 「在大陆地壳下面有多少层 (类型)?」, 除问题以文本形式表示之外, 还有一个与图片干系的篇章「板块运动」。
首先通过词嵌入 (采取 Word2Vec 中的 Skip-gram 策略), 将 「问题」 与 「篇章」 中的以离散符号表示的词转换为向量. 图片经 ResNet 网络处理后, 取 res5c 层的特色作为输出 [55] , 它是一组高维空间的特色向量。然后将「问题」和「篇章」中的词向量与「图片」输出的特色向量做领悟, 以预测「答案」。为了更好地领悟, 通过把稳机制, 先找出「问题」 和 「篇章」中的「关键词」, 这些关键词能够更好地反响「问题」的主题 (语义)。再依据关键词通过「空间把稳机制」找出图片中关键区域的特色, 由于这些特色更符合关键词向量所表达的主题, 因此领悟效果会更好。这里采取的领悟方法是双线性池化 (multi modal bilinear pooling) 方法。「图文问答」是选择题, 备选方案有 「1」, 「2」, 「3」三种, 将领悟后的向量与备选方案的向量比较较, 取最靠近的一个向量作为输出, 这里是 「2」 (向量)。
图文问答目前达到的水平与人类比较相差很远, 以「选择题」为例, 目前达到的水平只比随机预测略好。
4 总结
为了实现第三代 AI 的目标, 我们采取三空间领悟的模型,即领悟双空间与单空间两种模型,如图 10 所示。双空间模型采取类脑的事情机制,如果实现的话,机器就会像人类大脑的行为一样,具有可阐明性与鲁棒性。此外,当把觉得(视觉、听觉等)旗子暗记提升为感知(符号)时, 机器就具备一定的理解能力,因此也办理了可阐明和鲁棒的问题。当机器中的基本观点(符号)可由感知产生时,符号就有了根本 (根基),符号与符号推理就有了内在的语义,从根本上办理了机器行为的可阐明与鲁棒性的问题。单空间模型以深度学习为根本,存在不可阐明与不鲁棒的毛病,如果经由改进提高了其可阐明性与鲁棒性,就从其余一个方向迈向第三代 AI.
双空间模型模拟了大脑的事情机制,但由于我们对大脑的事情机制理解得很少,这条道路存在某些不愿定性,比如,机器通过与环境的交互学习 (强化学习) 所建立的「内在语义」, 与人类通过感知所获取的「内在语义」是否一样,机器是否也能具故意识? 等,目前还不能肯定。只管存在这些困难,但我们相信机器只要朝这个方向迈出一步,就会更靠近于真正的 AI。单一空间模型因此深度学习为根本,优点是充分利用打算机的算力,在一些方面会表现出比人类优胜的性能。但深度学习存在一些根本性的缺陷,通过算法的改进究竟能得到多大程度的进步,也存在不愿定性,须要进一步探索。但是,我们也相信对付深度学习的每一步改进,都将推动 AI 向前发展。
考虑以上这些不愿定性,为了实现第三代 AI 的目标,最好的策略是同时沿着这两条路线提高,即三空间的领悟,如图 10 所示。这种策略的好处是,既最大限度地借鉴大脑的事情机制,又充分利用打算机的算力,二者的结合,有望建造更加强大的 AI。
本文系作者个人观点,不代表本站立场,转载请注明出处!