演讲人:刘嘉演讲地点:清华大学人文清华讲坛演讲韶光:2022年11月

人工智能的未来之路_人工智能_人类 云服务

演讲人简介:

刘嘉,麻省理工学院博士,生理学家,长期从事生理学、脑科学与人工智能研究。
清华大学根本科学讲席教授、生理学系系主任、清华大学脑与智能实验室首席研究员、北京智源人工智能研究院首席科学家。

人的认知与大脑布局

为什么人如此难以理解?为什么这个天下总是让我们产生很多困惑?这是人类从有文明开始就一贯存在的问题,道理实在非常大略。

首先,我们瞥见的天下只是这个天下中非常小的一部分,我们忽略了绝大部分的东西。

我们在清华做过一个小实验:一位戴玄色渔夫帽的女士在清华问路,在她问路的时候,我们安排一块隔板从戴玄色渔夫帽的女士和被问路的人之间穿过。
当板子过来时,原来问路的女士抬着板子走开了,而原来抬板子过来的另一位戴蓝色渔夫帽的女士留了下来,由她连续问路。
在7个被问路的人中,只有一个人把稳到了提问人的变革。
这个小实验的问路场景里,人们实在只瞥见了天下上非常小的一部分,由于这些是不主要的信息,人们就随意马虎忽略掉这些信息。

但更可能发生的是,人们的认知还会扭曲这个天下。
比如图1这一组图里,有两个拼在一起的方块图,一个颜色深一点,一个颜色浅一点,还有一个圆环,它的灰度介于两者之间,圆环旁边两半颜色一样。
但如果把两个方块图分开,大家一样平常都会以为圆环的颜色一边变浅了,一边变深了,事实上,它们的颜色仍是完备一样的。
再把这个圆环分开,变成高下移动,这时瞥见的东西有立体感了,彷佛是深灰色的东西盖上了一层浅色的毛玻璃,以及浅色的板盖上了深色的毛玻璃。

我们无时无刻不在不雅观察这个天下,但又无时无刻不在扭曲这个天下,这到底是为什么?

这实在取决于我们的视觉系统。
如果外部天下存在一个绿苹果,它会以大约100亿比特/秒的信息量进入我们的视网膜,视网膜通过约100万个神经连接,连接到视觉皮层,这个时候我们的信息流就从百亿比特/秒变成600万比特/秒;经由视觉低级皮层加工再传到高等皮层来决定看到的东西是什么时,信息流又变成了100比特/秒。
这时信息量衰减了1亿倍。
可见,当我们做决策时,我们得到的信息实在是非常有限的,以是我们就须要布局出新的东西,把缺失落的信息补上,而我们的大脑就像魔术师一样来填补这些缺失落的信息。
这一方面可以阐明为什么有很多东西我们看不见——由于传输过程中已经被人脑衰减掉、过滤掉了;同时也可以阐明,为什么有的人瞥见一个绿苹果会认为是红苹果——由于这个重构的过程是创造性的,不是大略复制。
正是基于这个布局,我们也可以把一个苹果算作一个梨子,这是我们大脑布局的过程,是一个正常的征象。

人脑重构的意义

为什么我们的大脑不能像摄像机、摄影机一样虔诚客不雅观地反响物理天下,为什么非要自己来重构这个天下?这样的人脑重构究竟有什么好处?

正如康德所言:“没有觉得支撑的知识是空的,没有知识勾引的觉得是瞎的。
”这句话的前半句说的是,如果没有外部的输入,我们很难构建自己的生理天下,但我想强调的是下半句“没有知识勾引的觉得是瞎的”。
如果你不知道你看的是什么东西,那你就即是什么都看不见。
这是由于,这个天下是模棱两可的,须要我们去布局,把我们的理解加进去,只有这样我们才能真正知道这个天下究竟发生了什么。

与理解比较,更主要的是创造。
昔时夜脑没有被外部信息填满而留下空间时,我们能够在这空间里创造出自己想要创造的东西。
正如《小王子》的作者圣·德克旭贝里所言:“一堆岩石在有人对着它思考时就不再是岩石了,它将化身为大教堂。
”这便是人类了不起的创造——当我们的先人跋山涉水来到一片荒原,他们瞥见的不是一堆乱石,而是未来的家园。
以是,在过去的300万年里,人和猴子分开进化,人的大脑体积增加了3倍;但是,这体积并不是均匀增加的,增加最大的地方在额叶:与200万年前的先人能人比较,我们的头骨往前突出,以容纳更大体积的额叶,而强大的额叶使我们能布局出不存在的东西。
比如我们的先人准备去打猎,不用等瞥见猎物才做出反应,他只须要提前想象佃猎的情景,就可以把统统安排好。
如此一来,人可以把未来在脑海里“演”一遍,构建出一个个可能的未来,从而对未来做出行动方案,这是人类能够降服其他比我们更强大更凶猛的动物,成为万物之灵的关键。
这也印证了荀子的一句话:“但是人之所以为人者,非特以二足而无毛也,以其有辨也。

重构生理天下的知识从何而来

人脑对天下的布局,总是须要先验知识,而先验知识一部分来自基因的烙印。
换言之,我们来到这个天下时并不是一块白板,而是带着32亿年的聪慧来的,这些聪慧就印刻在基因中。

我们曾经用我校生理系女教授和女博士后的照片,做了一个有趣的小实验:如果把她们的脸全部叠加起来,做一张“均匀脸”,大家普遍反馈说这张“均匀脸”充满两个字:“睿智”。
“均匀脸”所代表的意思是什么?人脸实在是我们的基因图谱——我们的基因都写在脸上,当我们把脸均匀起来之后,得到的是这18位老师均匀的基因,均匀的基因代表突变很少。
而基因一旦突变,大概率是有害的,基因突变越少,解释基因越好,携带遗传性疾病的概率就越低,这便是为什么人们普遍会以为“均匀脸”更好看、更符合我们的审美。

既然脸是我们的基因图谱,对生存来讲如此主要,我们便须要发展出非常强大的看脸能力,即面孔识别。
我们研究小组已经通过实验证明,面孔识别能力也写在人类的基因里。
我们找了两类双胞胎,一种是同卵双胞胎(由同一个受精卵发育而来),基本上具有100%相同的基因。
其余一种是异卵双胞胎(由两个独立的受精卵发育而来),基因遗传物质的均匀遗传度大概是50%。
通过比较他们在面孔识别上的能力,我们创造同卵双胞胎在面孔识别任务上的相似程度更高,即面孔识别的能力受遗传成分的影响。
这一点也可以从我们的另一研究得到验证,即面孔失落认症或者大家说的“脸盲”。

在图2显示的这个遗传树里,只要孩子有面孔失落认症,他的父母中大概率有一个也是面孔失落认症。
第二幅图里有一个有趣的三角,三角形底边的两个端点代表的便是同卵双胞胎。
当时我们在大学里测试了一个女孩,创造她有面孔失落认症,那女孩说她有一个同卵双胞胎姐姐,我们把她姐姐请来一测,创造果真也是面孔失落认症。

“自傲”对大脑的影响

除了看别人的面孔,我们也常常照镜子看自己。
最喜好照镜子的人听说是纳西索斯,他是古希腊神话里的超级帅哥,对自己的面孔着了迷,每天趴在溪边,通过水的倒影欣赏自己的绝世美颜。
生理学由此称这种征象为“纳西索斯情结”,意思是一个人高度自恋,对自己爱到了极致。

实在对自己的爱,对自己面孔的欣赏,背后反响的是一个非常主要的特质,即人类的自傲。
自傲是个体对自己的总体态度,人分成高自傲和低自傲两种。

什么是高自傲?这里有四个问题:1.你是否认为你是一个有代价的人?2.你是否认为你拥有很多美好的品质?3.你是否对自己满意?4.你是否对自己持肯定态度?

如果你对每道问题的回答都是“是”,那么你便是高自傲的人。
“自傲”在我们面临困境时能供应极大的帮助。

当一个人长期经受压力和苦难,身体会变得差,生理幸福感会低下,更糟糕的是,认知发展会受损,认知能力会比别人低很多,表示在大脑上便是海马体会受到极大的损伤,而海马体是人学习、影象、空间导航的中枢。

自傲在压力源和生理天下之间建立起一道牢不可破的防线,它就像年夜胆的士兵一样挡在人的生理天下面前,帮人把压力、负性事宜挡在表面,让人能够正常、康健地发展。
人有两种成本,一种是物质成本,一种是生理成本,自傲自傲、理性平和,这些便是生理成本。
物质成本富余的人未必有高自傲,而处境不利的人没有损失他的自傲与自傲时,就很可能在触达低点时再反弹,并达到人生新的高度。

我们所处的物理天下永久是不完美的,总有让人不满意之处,但是每个人可以在一个不完美的物理天下里构建出一个美好的生理天下。
为什么?由于我们的大脑便是一个布局体,从物理天下所吸收到的信息,经由大脑的事情,可以构建出一个完美的生理天下。
这正印证了社会心理学家班杜拉所说的一句话:“人既是环境的产物,也是环境的营造者。

人的双链进化

人和动物的进化有着实质的差异。
动物是按照基因,按照达尔文的进化论,一点点试着生存、提高。
人除了有代表着过去的生物基因的蜕变,还有其余一条蜕变线,即基于社会基因(Meme)的蜕变,而这条线带着我们以与动物不一样的办法提高。

生物基原由一些碱基对构成,那社会基因是什么?远古时,我们的先人中有一位溘然由于某种缘故原由能够把火生起来了,一种知识、技能被创造出来,这就相称于基因在突变,一个精良的基因产生了。
会生火的这种技能、知识就像基因一样开始传播给其他人,从一个部落传到其他部落,逐步地生火就从个人拥有的技能变成人类拥有的技能。
逐渐地,人们又开始会制作长矛和其他工具,经由漫长的发展,逐步构建成本日的人类社会。
这便是为什么我们一贯强调知识、文明是如此主要,而大学便是文明的产房。
孟子说过:“人之以是异于禽兽者几希;庶民去之,君子存之。
”这里的“几希”便是我们的文明,便是我们在蜕变过程中所创造所传播的社会基因。

科技发展的紧张目的之一,是要让知识的扩散变得更快、更便利。
大约在六千年前,人类最早的笔墨楔形笔墨在月牙地带被发明出来,使得人类的知识技能可以被记录下来,可以被虔诚传播。
之后的活字印刷,以至本日的电话、电报、互联网等等这统统,使得我们能够更加高效地把知识传播出去,推动文明加速蜕变。

人类的文明时期大约可以分成三个阶段:第一个阶段是原始文明,大约经历了两百多万年,它的前十万年和后十万年没有什么太大变革。
第二个阶段是农业文明,大约经历了四千多年,这个时候人类开始变成文明种族,懂得了一些天文地理知识等等,学会栽种庄稼,可以驯服野兽,把它们变成家畜,但发展依然十分缓慢。
真正带来巨大变革的是第三个阶段,即工业文明。
工业文明从开始出身到现在,不过是短短三百年;但在这三百年里,变革是如此之快,以至于我们不得不将它再细分成四个阶段,第一个阶段是机器化时期(1760-1840年代),涌现了蒸汽机等。
第二个阶段是电气化时期(1840-20世纪初),涌现了电力等。
第三个阶段是自动化时期(1950-21世纪初)。
而第四个阶段,便是我们现在所处的信息时期。

人工智能的进展

2002年,我的博士论文答辩题目是《面孔识别的认知神经机制》,在答辩的第二张PPT里我这么写道:“现在最前辈的机器识别面孔的精确率只能是随机水平,而人类能够在一秒钟内识别上百张面孔,为什么人类如此伟大,为什么人类如此聪明,为什么机器如此愚蠢?”

在2002年,机器识别人脸还可以说是“一塌糊涂”。
到了2015年,我作为江苏卫视《最强大脑》的总策划,设计人机大战项目,即机器和人比拼面孔识别,看谁的能力最强。
比赛的结果让我震荡:经由十几年的发展,人工智能已经强大到在人脸识别上赛过人类的最强大脑。
我当时非常光彩我的博士论文是在十几年前答辩的;如果我现在这么开题,可能就拿不到博士学位了。

当时除了震荡,还有好奇:人工智能究竟是靠什么来达到和人一样的面孔识别水平,乃至超越人类的水平?

我们建立了一个人工神经网络,演习它去识别性别,即差异是男性还是女性,它的精确率能达到100%。
这个神经网络究竟是靠什么把男性和女性区分开?我们找了一张中性面孔,便是把男性和女性面孔求均匀,给它加上随机噪音,然后“喂给”人工神经网络,它有时候会判断这个图是一个女性,而这个面孔加上其他噪音,则会被判断为男性。
于是,完备一样的底图,加上不同的噪音,就会得到一组被人工神经网络认为是女性的图和一组被认为是男性的图。
当把这组被认为是女性的图中的中性面孔去掉,只留下噪音时,这些噪音叠加起来,我们得到的就不再是随机噪音,而是人工神经网络用于识别女性的内部表征。
同样,我们也可以得到男性面孔在这个神经网络中的内部表征。
进一步,我们把两者相减,就得到了人工神经网络用以区分男性和女性的模式。
在这个模式里,可以看到,眼睛、眉弓、鼻子、人中是它认为的区分男性和女性的关键特色。
而这些关键特色,的确是我们人类用于区分男性和女性的关键特色,它们的相似度达到了0.73,这是非常高的干系度。
但是,自始至终,我们并没有见告过这个人工神经网络:你该当用什么办法去识别男性和女性;只是要让它做这件事情,它就会产生跟人类类似的内部表征、认知操作,从而完成性别判断。
也便是说,人工智能在这个过程中呈现出和人类一样的生理天下。

在那一刻我开始意识到,生物过去的进化都是一条单线,基于碳基的办法运行。
但是当人类创造出人工智能之后,人类文明就很可能不再是平滑向前,接下来或许会涌现一种革命性的跃迁,可能在文明的进化中涌现奇点。

为什么这么说呢?我们来看人类和人工智能的三大差异。

第一,算力。
人类的大脑常日重3.5斤旁边,虽然只占我们体重的2%,但花费了我们身体25%以上的能量,因此它是一个耗能大户,已经达到了我们身体能够支撑的极限。
以是,人类的大脑看起来已经到了进化极限,再给一千年、一万年,人类的大脑很可能不会变得更大,聪明程度也不会增加。
但是对付人工智能来说,一块CPU不足可以再加一块CPU,一块硬盘不足可以再加一块硬盘,理论上它有无限的算力和无限的存储能力。

第二,寿命。
人的寿命是有限的,再伟大的思想也有停滞的一刻。
但人工智能的寿命是无限的,CPU烧了可以换块CPU,电线断了再换根电线就行。

最关键的,是人工智能的无尽可能。
对付人类而言,一样平常来说有两种知识,一种是可以描述的明知识,比如牛顿定律。
一种是可以感想熏染但难以描述的默知识,比如骑自行车的知识。
此外还有第三种知识,是人类所没有而机器拥有的,即暗知识,它不可感想熏染,不可描述,不可表达,它是存在于海量数据中万世万物之间的联系,数量极其巨大,人类无法理解。

2016年,AlphaGo击败了人类围棋顶尖高手之一李世石。
当时天下围棋积分排名第一的围棋手柯洁说:“我们人类下了2000年围棋,连门都没入。
”棋圣聂卫平说:“我们该当让阿老师(AlphaGo)来教我们下棋。
”这不是他们谦逊,而是事实。
一个人不吃不喝一辈子所下的围棋最多也便是10万盘,而从人类发明围棋到现在,累计统共下了大约3000万盘围棋。
而围棋的空间有多大呢?一个格子可以有三种状态,放白棋、放黑棋或者不放,而棋盘统共有19×19个格子,以是它的状态统共有319×19种,大约即是10172,这比全体宇宙中的原子数量还要多。
相对付如此弘大的围棋空间,人类的两千多年探索,只是这个空间里一个微不足道的小点,而大部分空间还是一片阴郁。
AlphaGo之以是比人类更加强大,并不是它比人类聪明,而是由于它探索了更大的空间,因此找到了更多下法而已。
牛顿曾说:“我就像在海边玩耍的小孩,偶尔拾到俏丽的贝壳,就高兴不已。
但面对真理海洋,我仍一无所知。
”现在看来,这不是牛顿谦逊,而是实情。

再看一下艺术。
目前人工智能已经可以制作达到专业水平的绘画(图3、图4)和音乐。
此外,状师、年夜夫、税务师、咨询师等须要非常专业的知识的“金领”职业,也逐渐涌现了人工智能的身影,看起来很可能有一天会被人工智能取代。
神经网络之父、深度学习的创始人杰弗里·辛顿(GeoffreyHinton)接管麻省理工学院的《TechReview》采访时说:“将来深度学习可以做任何事情。

人工智能与类人智能的巨大差距

人工智能真的已经无所不能吗?生理学家磨练了当时最前辈的人工神经网络模型GPT-3。
他们认为之以是GPT-3显得非常聪明,是由于问了它智能的问题。
假设问它一些很“弱智”的问题,它会怎么回答?他们问它:“我的腿上有几只眼睛?”这个连没有上过学的小孩都能精确回答的问题却难倒了GPT-3,它回答说:“你的腿上有两只眼睛。
”这表明它并不理解眼睛是什么,它只是在做关联而已——人有两只眼睛,腿是人的一部分,以是它认为腿上该当有两只眼睛。
这个例子充分印证了爱因斯坦名言:“任何傻瓜都知道,关键在于理解。
”GPT-3知道但并不理解眼睛究竟是什么,而理解,正是我们人类真正理解这个天下、能在这个天下里自由徜徉的关键。

杰弗里·辛顿显然也意识到了这个问题,他表示,我们可以进一步发展人工智能,当一个人工智能能够准确描述一个场景,它便是理解了。
真是这样么?假设有这么一个场景:有个人从柱子上狠狠摔了下来,跌倒在地。
如果让人工智能来描述这个场景,它会说一个人从柱子上掉下来了。
而我们对这个场景还有一个很主要的反应——“疼”。
这个差异表示了人类具有一种特殊主要的能力,即共情:别人遭受了苦难我能感同身受,而这种感想熏染是自动的。
共情不是一种奢侈品,而是一种必需品,由于当一个孩子没有这种感同身受的能力,缺少同理心,他在小时候就很难对父母产生留恋,很难和其他小朋友玩到一起;在终年夜往后,会对社交常情缺少理解,对他人情绪缺少反应,不能根据社交场合调度自己的行为,有可能做出反社会的行为。
假设我们的未来是由一台台没有共情的机器所组建的“自闭症”式的社会,这个社会还能有文明吗?这个社会还能有发展吗?以是,人工智能的奠基人之一马文·李·明斯基说过这么一句话:“现在的问题不是一个智能的机器是否拥有情绪,而是不拥有情绪的机器是否能拥有智能。
”在马文·李·明斯基看来,情绪是智能的根本,得先有情绪才有智能。

又如在好莱坞电影里,美国的黑手党跑去找一个店家说:“你这个蛋糕店看上去真不错,如果意外发生失火烧掉那就太可惜了。
”叨教这个黑手党的话是什么意思?A:请店家做好消防事情,别烧掉了店铺,那样太可惜了。
B:请店家交保护费,要不然就要烧掉店铺。
对我们而言,答案显而易见是B,是黑手党在威胁并打单店家。
但是对付机器来说,它还很难明得这话背后隐蔽的推理和因果。
正如古希腊哲学家德谟克利特所言:“我宁肯找到一个因果的阐明,也不愿成为波斯人的王。
”对人而言,我们认为万事万物都是有因果的,而正是这种对因果的执着使我们能够推理,能够把零散的万世万物联系在一起,构成一个个故事。

实在笛卡尔四百多年前就说过:“纵然机器可能在某些方面做得和我们一样好,乃至更好,但它们在其他方面不可避免地会失落败。
这是由于它们不是通过理解而只是根据预设来行动。
”这一点,到现在还没有发生实质的改变。

以是,虽然目前人工智能取得了很高的造诣,但是和人的智能仍旧存在巨大差距,依然没有达到类人智能。
那么未来如何实现类人智能呢?我认为,关键点就在于脑科学+人工智能。

举个大略的例子:线虫是一个非常大略的生物,只有302个神经元。
但是,麻省理工学院的研究者模拟了个中19个神经元,就完成了自动驾驶这个任务,其参数比传统的大模型足足低三个数量级,只有75000个参数,而这个仿生的人工神经网络对不同道路具有非常高的通用性和可阐明性,以及非常强的鲁棒性。
仅仅模拟来自大略生物的19个神经元,就可以完成自动驾驶的初步任务,这是由于生物不是靠神经元的数量取胜,而是靠32亿年进化形成的聪慧取胜,这项研究模拟的实在是32亿年进化形成的聪慧。
从这个角度讲,人类的大脑是目前天下上最聪明的大脑,有860亿个神经元,均匀每个神经元有3000个连接,它代表着宇宙中在智力上所能达到的最高造诣。
那么,人工智能为什么不能向人脑学习,以人脑为模板、以人脑为借鉴,来发展出更好的人工智能呢?

对线虫神经元的模拟,只是一个开始,下一步大概我们会去模拟神经元数量百万级的果蝇、更高量级的斑马鱼,乃至小鼠、大鼠、猕猴,末了是人类。
仅仅从神经元的数量上来讲,这便是一个巨大的寻衅,由于神经元的数量足足差了9个数量级,而还有更多更大的寻衅来自机制和算法,以及更多的未知。
但是我坚信,脑科学加上人工智能,有一天大概能够造出一个媲美人脑的数字大脑。

小结

莎士比亚说:“所谓过往,皆为序章。
”我们的现在是过去的未来,已经写定,但我们的此刻绝对不是未来的过去,由于我们的未来是未定的,取决于我们现在如何做出选择。

人类发明了人工智能,在本日随着算力的增加、技能的进步,它开始有了超越人类的可能。
我们现在须要对具有统统可能的未来做出选择。

在我看来,未来大约有三种可能。
第一种,人工智能像科幻电影《星球大战》里的R2-D2一样,是人类虔诚的伙伴,成为人类非常好的朋友,帮助人类变得更强大。
第二种可能,我们构建出一个数字大脑,它的能力可能好比今人类的大脑更强,这时可以实现人机合二为一,把我们的意识、影象、情绪上传到这个数字大脑里,如果CPU坏了就换一块CPU,内存须要扩大一点就加点内存,这样人就可以得到精神上的“永生”。
未来学家库兹韦尔在《奇点来临》这本书中认为大约在2045年,这一刻就会到来。
第三种可能,便是科幻电影《闭幕者》里所展示的,人类文明消逝。

未来会怎么样,终极取决于我们现在做什么。
这很主要,由于我们本日站在了这个进化的节点之上。

《光明日报》( 2022年12月24日10版)

来源: 光明网-《光明日报》