Gary Marcus:AI 可以从人类思维中进修的11个启示_体系_常识
编译 | 陈彩娴
1969 年图灵奖得主、MIT 人工智能实验室创始人马文·明斯基(Marvin Minsky)在其1986年著作《心智社会》(The Society of Mind)一书中曾磋商人类聪慧的来源。他认为,“人类的聪慧源于人类社会的多样性,而不是某个单一的、完美的准则。”
毫无疑问,近几年人工智能的技能有了极大的飞跃,不仅打败了围棋与扑克比赛的天下冠军,还在机器翻译、物体分类和语音识别等领域取得了重大进步。
然而,实在大多数 AI 系统的关注点都十分狭窄。比如,围棋冠军选手“AlphaGo”虽然在与人类比赛中胜出,对围棋本身却丝毫不理解:它不知道围棋游戏进行的过程是由选手在棋板上落下石头棋子,乃至不知道“石头”、“板”为何物。如果你将原来给它看的正方形网格板换发展方形板,你还要重新对它进行演习。
换句话说,AlphaGo的“智能”是非常有限的。要想发展能够理解文本或赋能通用家居机器人的人工智能技能,我们还要付出更多努力。纽约大学的两位教授 Gary Marcus 与 Ernest Davis 认为,AI 的下一个发展机遇是从人类思维“取经”,由于人类在理解与灵巧思考上的表现仍远远优于机器。
基于对认知科学(生理学、措辞学与哲学)的思考,两位作者提出了 AI 发展的 11 个建议:
1 AI理论切忌“吹糠见米”
从行为主义生理学(behaviorism)、贝叶斯推理到深度学习,科研职员常常是提出一些大略的理论来希望阐明所有人类聪慧行为。
Firestone 与 Scholl 在 2016 年曾提出一个不雅观点:“没有哪一种方法可以概括人类大脑的思考办法,由于‘思考’并不是一个特定的事物。相反,大脑的思维由不同部分组成,每一部分的运行办法又不相同:人类大脑在不雅观察到一种颜色时的思考办法与操持假期的思考办法不同,操持假期的思考办法又与理解句子、移动肢体、影象事实或感想熏染情绪不同。”
人类的大脑极其繁芜多样:拥有超过 150 个可以清楚辨别的大脑区域,约 860 亿个神经元,数百个(或数千个)不同类型;万亿个突触,每个突触中又有数百种不同的蛋白质。
真正智能且灵巧的系统很可能非常繁芜,就像人脑一样。因此,任何将智能大略概括为一个事理或一个“主算法”的理论都注定会失落败。
2 丰富的内在表征
认知心理学的研究侧重于内在表征,如信念、希望与目标,经典 AI 也是如此。
例如,为了描述肯尼迪总统著名的 1963 年柏林之行,人们每每会增加一些事实,如 part-of(柏林,德国),visited (肯尼迪,柏林,1963年)。这些表征聚拢便形成“知识”,推理便是建立在这一基石上。在此根本上,若你所推断得到的事实是“肯尼迪拜访了德国”,那么你的推理便是不值一提的。
当前,深度学习试图用许多能大约捕捉当下事宜的矢量来进行粗略推理,但这根本无法直接代表命题。
在深度学习中,没有能表示 visited(肯尼迪,柏林,1963年)或 part-of(柏林,德国)的详细方法;统统描述都只是粗略靠近事实描述而已。深度学习目前在推理和抽象推理上结束不前,由于它一开始就不是用于表示精确的事实知识。一旦事实模糊,精确推理就很难。GPT-3 系统便是一个很好的例子。干系系统 BERT 也无法针对诸如“如果您将两个奖杯放在一张桌子上并添加另一个,那么您有多少个?”的问题给出可靠答案。
3 抽象化与泛化
我们所知道的许多事物都是非常抽象的。例如,“ X 是 Y 的姐妹”可以描述许多不同人之间的关系:Malia 是 Sasha 的姐妹,Anne 公主是 Charles 王子的姐妹,等等。我们不仅知道哪些人是姐妹,还知道姐妹一样平常指的是什么,并将这些知识运用于个人。
如果两个人有相同的父母,那么我们就可以推断他们的关系是兄弟姐妹。如果我们 Laura 是 Charles 和 Caroline 的女儿,并且创造 Mary 也是他们的女儿,那么我们就可以推断出 Mary 和 Laura 是姐妹。
构成认知模型和知识的根本的表征由抽象关系构建而成,并以繁芜的构造组合。我们险些可以将所有事物抽象化:时候(如“ 10:35 PM”),空间(如“北极”),分外事宜(如“林肯遇刺”),社会政治组织(如“美国***”) ,以及理论布局(如“语法”),并将这些抽象事物用于阐明或故事编造,从实质看繁芜的情形,以此来推理天下上的各种事物。
4 深度布局的认知体系
马文·明斯基曾提出一个不雅观点:我们该当将人的认知看作一个“心智社会”,该社会包含数十或数百种不同的 “agent”,每一个 agent 专攻不同类型的任务。
例如,喝一杯茶须要GRASPING agent、BALANCING agent、THIRST agent和其他 MOVING agents的相互浸染。进化与发展生理学的许多事情都指明:大脑不但包含一种思维,而是许多种思维。
讽刺的是,当前机器学习的发展趋势险些与上述不雅观点相反。
机器学习更偏好利用内部构造较少的单一同质机制的端到端模型,比如英伟达在2016年所推出的驾驶模型。该模型没有利用感知、预测与决策等经典模块,而是利用单一的、相对统一的神经网络来学习输入(像素)和一组输出(转向和加速指令)之间的直接干系性。
此类模型的推戴者认为,“联合”演习全体系统的方法有许多上风,不必分开演习单个模块。如果打造一个大的网络更随意马虎,为什么还要费心思去构建单独的模块呢?
事实上,如果“联合”演习全体系统,那么这种系统很难调试,灵巧性非常差。在没有人类驾驶员的干预下,英伟达的系统常日只能良好运行几个小时,而不是数千个小时(例如 Waymo 的多模块系统)。Waymo的系统可以从A点导航到B点并进行车道变更,但英伟达的系统却只能一贯走同一条车道。
最精良的AI研究员在办理繁芜问题时常日会利用稠浊系统。
比如,在围棋比赛中,若想取得胜利,就须要将深度学习、强化学习、博弈树搜索与蒙特卡洛搜索相结合。Watson 在Jeopardy!
上所取得的胜利,诸如 Siri 和 Alexa 的问答机器人,以及网页搜索引擎都利用了“厨房水槽法”,整合了许多不同类型的流程。Mao等人在“The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision”中先容了一种将深度学习和符号技能相结合的系统,该系统在视觉问题解答和图像文本检索方面产生了良好的结果。Marcus 在“The next decade in AI: four steps towards robust artificial intelligence”中也谈论了许多种不同的稠浊系统。
5 用于大略任务的多种工具
纵然在细粒度模型中,认知体系也常日包含多个机制。
就拿动词及其过去式来说:在英语和许多其他措辞中,一些动词通过大略的规则(如 walk-walked,英语动词原形后面直接加 ed)变成过去时态,另一些动词通过不规则形成过去时态(如 sing-sang,bring-brought)。
根据小孩在将动词变成过去时所犯的缺点的数据,Gary Marcus 和 Steven Pinker 提出了一种稠浊模型。这种模型纵然在微不雅观情形下也有小小的构造,个中规则动词根据规则进行泛化,不规则动词的过去时则通过一个关联网络天生。
6 组合性
Humboldt 曾说过,措辞的实质是“无限利用有限的方法”。在大脑与措辞数据有限的情形下,我们成功创造了一种语法,使我们能够说和理解数不清的句子。
在许多情形下,我们是通过较小的身分(例如单个词语或短语)来布局较大的句子。比如“水手深爱这个女孩”这一句子,我们可以将它作为一个更大句子的组成部分(玛丽亚想象,水手深爱这个女孩),这个更大的句子又可以作为一个更更大句子的组成部分(克里斯写了一篇文章,文章是关于 Maria 想象,水手深爱这个女孩),等等。这些句子都很随意马虎为人理解。
相反,神经网络领域的科学家 Geoff Hinton 一贯坚持一个不雅观点:句子的含义该当以所谓的“思想向量”(thought vectors)进行编码。但是,句子所表达的思想及句子之间的细微关系太过繁芜,因此难以通过将表面上看起来相似的句子大略组合就能理解句子所要传达的意思。基于 Hinton 的不雅观点所构建的系统可以天生符合语法规则的文本,但随着韶光的推移与所天生文本的数量增加,系统会越来越无法理解天生的文本内容。
7 自上而下、自下而上的信息整合
下图图 1:图片所示是字母还是数字?根据高下文,这张图片既可能是字母,也可能是数字(拜会图 2)。
认知心理学家常常会将信息区分为“自下而上的信息”(直接来自我们的感官)和“自上而下的知识”(即我们对天下的先验知识,如字母和数字是不同种别,单词和数字是由这些种别中提取的元素组成,等等)。当我们将落在视网膜上的光芒与连贯的天下画面领悟在一起时,下图所示的模棱两可的符号在不同情形下看起来是不同的。
图 1:可能是数字,也可能是字母
图2:根据高下文而作的阐明
无论我们看到什么、读到什么,我们都将其融入到一种情景认知模型中,并结合我们对全体天下的理解。
8 嵌在理论中的观点
在一个经典的实验中,发展生理学家 Frank Keil 讯问孩子们:
“一个浣熊想要做整容手术把外表编程臭鼬,手术完成后身体里留下“超级臭”的东西,这时候,浣熊是否变成了臭鼬?”
孩子们武断地认为浣熊无论若何都是浣熊,这大概是他们的生物学理论以及“生物的实质才是真正主要的”的不雅观念使然。(孩子们没有将相同的理论扩展到人造品上,例如被制造成喂鸟器形状的咖啡壶。)
嵌在理论中的观点对付高效学习至关主要。
假设一个小孩第一次看到鬣蜥的照片。险些是一瞬间,这个小孩不仅能够识别鬣蜥的其他照片,还能识别***中的鬣蜥和现实生活中的鬣蜥,并轻松地将它们与袋鼠区分开。同样地,这个小孩能够从关于动物的知识中推断鬣蜥要吃东西、要呼吸、出生时体型很小、会发展、会繁殖、会去世亡。
没有一件事是一座孤岛。要想得到成功,通用智能须要将其所得到的事实(facts)嵌入到有助于组织这些事实的更丰富的总体理论中。
9 因果关系
Judea Pearl 曾强调,对因果关系的深刻理解是人类认知中一个普遍存在且不可短缺的部分。如果天下很大略,我们对所有事情都有全面的理解,那么我们唯一须要的因果关系便是物理学。我们可以通过仿照来确定是什么影响什么,比如,如果我施加微牛顿力,接下来会发生什么?
但是,这种详细的仿照是不现实的,由于要跟踪的粒子太多,韶光太短,我们的信息也太禁绝确。
相反,我们常常利用近似值。我们知道事物是因果相联的,纵然不知道缘故原由。就像我们服用阿司匹林,由于我们知道这会使我们觉得好些,但我们不须要理解生归天学。因果知识无处不在,是我们大多数事情的根本。
10 追踪个体
在日常生活中,你会关注各种各样的单个物体,包括它们的属性和历史。比如,你的配偶曾经是一名,你的汽车后备箱上有凹痕,去年你改换了变速箱,等等。我们的履历由随着韶光的流逝而永存、变革的实体组成,我们所理解的许多事物都是由这些事物的干系事物与这些事物的单独历史、特质来组织而成。
但奇怪的是,这并不是深度学习系统所固有的不雅观点。
在大多数情形下,当前的深度学习系统专注于学习通用的、种别层面的关联,而不是有关特定个体的事实。在没有诸如数据库记录之类的观点,以及时间和变革的丰富表征时,很难追踪单个实体与所属类别的差异。
11 先天知识
有多少思维构造被建立,又有多少思维构造被学会了呢?“天性 vs 培养”(nature vs nurture)的常见对立是一种缺点的二分法。生物学(更准确来说,是来自发展生理学和发展神经科学)的研究证明:先天知识与后天学习是一起进行的。
很多机器学习的研究职员希望系统从头学起。但从完备空缺的状态中学习,只会使学习变得更困难。这相称于没有先天知识,只有后天学习。
最有效的办理方案实在是将“先天知识”与“后天学习”结合起来。人类很可能天生就能理解天下是由永恒不变的物体组成的,这些物体在时空的连接轨迹上航行,具有几何形状和数量的意识,还有直不雅观的生理学根本。
同样地,AI系统不应考试测验从像素与动作的关联中学习所有内容,而应在一开始就以对天下的核心理解作为开拓更丰富模型的根本。
12 结 论
认知科学的研究创造启示了我们对建立具备人类思维灵巧性与通用性的人工智能的探索。机器不须要复制人类的思想,但对人类思想的深刻理解大概会带来 AI 技能的重大进步。
我们认为,AI 的下一步发展应从专注于实行人类知识的核心框架开始,包括韶光、空间、因果关系,以及物理工具和人类及其相互浸染的根本知识。这些知识该当嵌入到可以自由扩展到各种知识的架构中,并始终牢记抽象、组合和追踪个体的核心原则。
我们还须要发展强大的推理技能,以处理繁芜的、不愿定的、不完全的知识,并可以自上而下和自下而上地事情,并将这些推理技能与感知、操作和措辞联系起来,建立丰富的天下认知模型。重点是构建一种以人类为灵感的学习系统,可以利用 AI 拥有的所有知识和认知能力,将其学到的知识整合到其先验知识中,并能够像孩子一样从各种可能的信息源中学习:学习与天下互动,与人互动,阅读,不雅观看***,乃至被教导等。
这是一个艰巨的任务,但是必须要做的。
原文链接:
https://cacm.acm.org/magazines/2021/1/249452-insights-for-ai-from-the-human-mind/fulltext
[赠书福利]
AI科技评论为大家带来10本《当代自然措辞天生》正版作者亲笔署名版新书。
请在1月17日AI科技评论文章《清华CoAI课题组新书《当代自然措辞天生》正式发布!
张钹院士亲自作序》(把稳不是本文)留言区各抒己见,谈一谈你对本书的意见和期待(必须要和本书主题干系)。
fAI 科技评论将会在留言区选出10名读者,每人送出《当代自然措辞天生》亲笔署名版一本。
活动规则:
1. 在1月17日AI科技评论文章(把稳不是本文)留言,留言点赞最高的前10位读者将得到赠书。得到赠书的读者请联系 AI 科技评论客服(aitechreview)。
2. 留言内容会有筛选,必须要和本书主题干系,例如“选我上去”等内容将不会被筛选,亦不会中奖。
3. 本活动韶光为2021年1月17日 - 2021年1月24日(23:00),活动推送内仅许可中奖一次。
本文系作者个人观点,不代表本站立场,转载请注明出处!