小编

| 作者:祁晓亮 1,2,†

时间、信息与人工智能_措辞_模子 绘影字幕

(1 斯坦福大学物理系)

(2 路径积分科技有限公司)

本文选自《物理》2024年第6期

择要 近年来,人工智能(AI)大措辞模型取得了突飞年夜进的发展,将人工智能对人类社会的影响也拓宽到了前所未有的范围。
文章将从与物理学有关的两个角度——信息和韶光尺度,来谈谈作者对大措辞模型带来的人工智能革命的一些不成熟的见地。
文中首先回顾大措辞模型的基本事理和近期发展,再谈论从信息的动力学和繁芜度的角度如何看待大措辞模型的意义。
基于人工智能模型和人类认知系统的比较,也谈判量人工智能的下一步发展方向,以及AI智能体方面的探索和发展。

关键词 大措辞模型,人工智能,信息,繁芜性,系统1,系统2

0 1
大措辞模型简介

作为本文谈论的背景,我先简要先容一下大措辞模型的基本事理。
措辞模型的目标,一言以蔽之便是“学人说话”。
比如“太阳从哪边出来?”这个问题,人类都会回答“从东边出来”,那么模型为了学人说话,也要学会回答“从东边出来”。
措辞模型实质上是一个函数:

这里的 w 是模型的参数(weights), x 是输入的句子, y 是输出的句子。
措辞模型的演习,便是通过调节大量的参数 w ,让输出y对付各种可能的输入 x 都尽可能靠近于人类的回答。

那么如何定义“靠近人类的回答”呢?显然同一个问题在不同的情境出不同的答案。
不可能拿着每一个人类的答案哀求AI去和它完备同等。
这种对人类的模拟只能是概任性的:把大量的语料作为演习数据,这些演习数据定义了一个条件概率 p ( y | x ),也便是给定输入 x ,有多少可能的不同输出,概率分布是若何。
然后措辞模型的任务便是去仿照这个概率分布。
这样定义的措辞模型实在已经有很长的历史。
例如信息论的开山鼻祖克劳德·喷鼻香农有一项著名的事情 [1] ,指出信息压缩的极限,也定义了著名的信息熵。
这篇文章中就谈论了如何根据字幕涌现的概率来天生类似人类措辞的字符串(图1)。

图1 克劳德·喷鼻香农在关于信源编码定理(source coding theorem)的论文中研究的措辞模型

更详细地来说,目前的措辞模型是采取“next token prediction”的办法来天生句子的。
措辞被切成称为token的最小单位(英文中是一个比单词更小的单位,中文中便是单个汉字),输入的笔墨可以算作一串token x 1 , x 2 , x 3 ,…, x n ,输出下一个token x n + 1 。
措辞模型输出的一句话,是通过多次调用同一个函数来实现的(图2):

如果以为话说完了,模型会输出一个结束的符号,表示回答结束了,答案会返回给用户。

图2 大措辞模型的示意图。
输入内容(粉色)经由运算预测输出下一个词(绿色),如此迭代

当前能力最强的大措辞模型,采取的是一种叫做transformer的模型架构 [2] 。
在这种架构中,笔墨首先被映射成高维向量。
例如,如果将每个token映射成100维的向量,则输入10个token的话便是一个100×10的矩阵。
经由多层的非线性运算,输出是一个同样维度的向量,再映射回输出笔墨 x n+ 1 (图2)。
这个非线性运算的细节这里就不详细讲了,与更早的机器学习模型比较,transformer模型有两个核心的上风:一是非局域性——任意两个输入token之间都可能有或强或弱的关系,原则上可以处理两个间隔很远的词之间的关联;二是transformer架构特殊适宜在GPU上开展并行打算,从而使得模型的参数量可以非常大,达到千亿以上的量级。

自从transformer在2017年被提出以来,Alphabet和OpenAI等公司都开拓了不断进步的transformer模型。
OpenAI在2020年推出了GPT3模型,然后在2022年11月推出了GPT3.5。
GPT3.5和之后的GPT4通过对话框的形式让广大个人用户直接体验,带来了巨大而广泛的影响,从此大措辞模型的发展进入了一个不断加速的期间,数百个模型被开拓出来,模型能力不断迅速提高,也有很多模型选择开源。
图3是一个近期的评测结果,从中可以看出,Claude,GPT,Gemini等模型在大学本科水平的知识、研究生水平的数学和编程等方面都已经表现得相称精良。

图3 美国人工智能公司Anthropic的模型Claude 3在2024年3月发布时的评测结果,个中红框中的三个模型Opus,Sonnet和Haiku是Claude 3的三个不同版本,能力依次减弱(图片引自: https://www.anthropic.com/news/claude-3-family )

大措辞模型能够基于“预测下一个词”这样的大略目标就达到本日的能力是相称令人震荡的。
当然,上面对于模型演习的描述是过度简化的,实际上要演习出真恰好用的模型,除了上面描述的海量数据演习过程(称为预演习pretraining),后面还要进行微调(finetuning)和基于人类反馈的增强学习(reenforcement learning from human feedback,RLHF)。
粗略地说,预演习过程让模型得到了根本的能力,微调和RLHF的紧张目标是让它更专注于对话的场景,理解人类的意图,以及符合社会规范(例如不做有害的回答,不供应有害的信息)。
在大模型不断增加参数的过程中,人们把稳到了新能力的“呈现”(emergence),例如演习本身并未专门针对逻辑思维能力,但逻辑思维能力随着参数量和数据量的增加自发地产生出来。
呈现的另一个表现是不同能力之间的“举一反三”,例如大量演习编程之后,创造模型在其他场景中的逻辑推理能力也有显著的提高。
从某种意义上说,大模型能力的呈现并非一个新的征象,而是自从2012年李飞飞创建ImageNet引发的深度学习革命以来一贯持续的趋势:更多的数据、更多的参数比起人工设计更能带来智能水平的提高。
在中文中,这常常被概括为“大力失事业”。
OpenAI超越比它体量大得多的Alphabet(谷歌),很主要的缘故原由是他们更早更武断地推进了这一起线。

那么这是否意味着人工智能的问题已经办理,只须要更多的数据、更多的打算就可以实现人类水平或者超越人类水平的智能呢?我们当下看到的措辞模型的革命,究竟只是人工智能发展中浩瀚模型之一,还是有特殊的意义呢?本文将会基于笔者的一些不成熟的见地,考试测验磋商这些问题。
(本文有部分不雅观点是基于笔者去年的一篇文章 [3] 。
)

0 2
信息繁芜度的临界点

大措辞模型的迅速发展让很多人非常愉快,也被类比于iphone的发明、互联网的发明、工业革命等等主要的历史时候。
这种类比更多的是从其功能上来考虑的。
从物理学的视角来看,我更希望找到一种内禀的判据。
这就彷佛在凝聚态物理学中研究相变,我们常日先要找到一个序参量,然后判断这个序参量是否发生了某种定性的变革。
对付AI来说,如果是针对一个详细的任务,例如上面图1所列举的那些测试结果,那么一个大略的临界点判据便是AI的得分是否能够达到或者超过人类的水平,但是这显然不是本日的措辞模型的目标。
措辞模型比起以前的人工智能模型,其最大的特点在于通用性。
虽然在不同任务中能够达到的水平参差不齐,但其目标显然是涵盖人类在统统领域中的能力,在近期多模态模型也得到显著的进步之后更是如此。
(须要澄清的是,本文所说的措辞模型所指比较广义,包括建立在类似事理上的多模态模型。
“措辞”是一种沟通的办法,就像对付人类而言一样,可以有***、音频、笔墨平分歧的形式。
)在这样一个广泛的领域中,如果要探求一个普遍利用的判据,我以为该当选择 信息 的角度。

我们先来回顾一下什么是信息。
实质上来说,信息是对 降落不愿定性 的量度。
同样是7个字,“三亚夏天下雪了”的信息量要远大于“辽宁冬天下雪了”,由于后者发生的概率要大得多。
因此一条 i 的信息量是这个事宜发生概率 p i 的函数 I ( p i )。
如果一个事宜有 i =1, 2, ⋯, n 个不同可能性,那么均匀的信息量便是 。
而如果我们哀求两条不干系的 i a 的信息量即是它们之和,这就会哀求 I ( p i q a )= I ( p i ) I ( q a ),由此得知 I ( p i ) 是一个对数函数,这便是喷鼻香农定义的信息熵 。
一条中包含的信息量,只和这个概率有关,而与这条是通过电话、笔墨还是口头通报的无关。
这正是反响了信息这个观点特殊普适的一壁。
统统人类行为,乃至统统物理过程,都伴随着信息的传播和蜕变,或者用一个更准确的名词,可以称它们为信息动力学(information dynamics)过程。
比如本日宇宙学不雅观测到的微波背景辐射,带给了我们关于极早期宇宙的信息。
微波背景辐射来自于某一个时候,在这个时候宇宙变得透明了。
在比这个时候更早的时候,宇宙是不透明的,光子会一直的被散射,以是我们本日无法直接吸收到那时候的信息。
从信息的角度来说,可以说在宇宙变透明的时候,信息动力学发生了一个质变,光子携带的信息从须臾即逝变成可以穿越百亿年。
同样的质变发生在人类措辞涌现的“时候”(当然这个并不是某个特定的时候,而可能是一个漫长的进化过程)。
在措辞涌现之前的人类,以及其他动物,虽然也能相互通报信息,但信息的内容太有限,用场也仅限于当下,从长期来看,信息在代际之间的通报只能靠基因的遗传和变异。
因此一种生物对新环境的适应,只能通过自然选择,在很长的韶光尺度上才能做到。
人类措辞的涌现,或者更准确地说,是措辞达到一种通用的程度,能够描述生活中的各种繁芜场景和思想,根本地改变了这一点。
纵然在没有笔墨的时期,人类也已经可以通过口口相传,积累很多宝贵的履历,发展出农业这样的繁芜技能。
一个人发明了轮子,所有其他人就不须要再发明轮子,只须要把制作轮子的技能不断传下去。
本日的人类与一万年前比较,基因和智商的差异大约可以忽略,但能够建立起如此繁芜的社会构造,创造出残酷的科学、技能、文化,从信息动力学的角度便是归功于一种新的信息载体——措辞,和新的信息动力学过程——人的思考和互换。
总结一下,从生命涌现到措辞涌现这段韶光,可以称为“DNA时期”,在这个时期中长期起浸染的信息的紧张载体是DNA,起决定性浸染的信息动力学过程是遗传变异和自然选择。
措辞涌现(大约十几万年前)以来的时期可以称为“人类措辞时期”,在这个时期起决定性浸染的信息载体是人类措辞,起决定性浸染的信息动力学过程是措辞的处理(通过人脑的思考和互换)、记录和传播。

基于以上的谈论,我们再来从信息的角度思考措辞模型革命的意义。
自从电脑和互联网发明以来,信息的传播和处理已经比以前要迅速得多,特殊是移动互联网时期以来,我们生活的很多方面已经被这些新技能深刻改变,但如果深入思考一下机器对付信息能够作出若何的处理,我们会创造在大措辞模型涌现之前,机器对信息的处理与人还是有很大的不同。
这个差异的关键在于 繁芜度 。
粗略地说,一个任务的打算繁芜度(computational complexity)量度的是在给定基本单元(例如逻辑门)的情形下,须要多少次运算才能完成这个任务,而信息繁芜度则是定义为须要多少次运算才能从一个给定的初始条件出发天生出这样的信息。
例如搜索引擎须要针对大量的网页之间的链接和用户利用数据进行一个繁芜的打算来给出推举,这种打算的繁芜度远超一个人类大脑能够处理的水平。
但是在衡量繁芜度的时候除了打算繁芜度,还要考虑输入和输出的信息的繁芜度。
搜索引擎虽然具有很高的打算繁芜度,其输出的信息却是严格限定的——网页或者其他的被推举内容都是人类创作的,机器只卖力做一个排序。
思考一下其他那些我们日常利用的功能(例如发邮件,打车,舆图导航),就会创造实在手机和电脑完成的任务险些都是信息的搬运工:帮助我们提升效率,但并不进行繁芜的信息处理。
另一种例子是AlphaGo:其信息处理的繁芜度已经显然高于人类,但只限于围棋这个详细的任务。
在这两种例子中,都存在着信息的瓶颈:输入、处理和输出三个环节中,至少一个环节的繁芜度受到了限定,导致机器整体上能够完成的任务受限,只能一次性地完成一个任务,把信息交流给人类。

大措辞模型的涌如今这个意义上带来了一场革命:大措辞模型的信息输入、处理和输出的繁芜度都达到了和人类可以比拟的水平(图4)。
如上文所述,措辞是人类文明的载体,人类做的统统事情都可以用措辞来描述,大措辞模型对付自然措辞的处理虽然还没有达到人类的智能水平,但其繁芜度已经与人类相称。
或者至少在对话场景中,对付措辞笔墨的处理繁芜度达到了和人类可以比拟的水平。
可以说,大措辞模型标志着 机器的信息处理繁芜度超过了临界点 。
比起以前的打算机,大措辞模型解除了信息的瓶颈。
如果接管这个判断的话,其影响是无法计算的。
具有了足够繁芜的输入输出能力,一个模型的输出就可以直接变成另一个模型的输入,模型之间可以构建繁芜的互助网络,就像人类个体构建社会组织一样。
一旦模型之间的互助具有1加1大于2的效果,智能的发展将进入新一轮的指数增长。
这就像物理学中的相变:一个磁性材料里面每一个电子自旋的行为在相变点之上和之下并无多大差异,但决定全体体系宏不雅观性子发生定性改变的是随着空间尺度的扩展和自由度的增加,其有序性是增强还是减弱。

图4 大措辞模型(LLM)和之前的机器(例如AlphaGo,Google)在信息的输入、处理和输出的繁芜度比拟。
虚线代表人类水平

超过临界点的AI将迅速成为与人类并驾齐驱的信息处理者。
本日的措辞模型,包括多模态模型,处理信息的基本单元是向量(vector)。
人类措辞以及多模态数据通过称为嵌入(embedding)的映射被翻译成向量进走运算。
可以说向量便是AI的措辞。
本日的AI革命,意味着信息的载体从人类措辞部分转移到向量,起决定性浸染的信息动力学过程从人脑的思考部分地转移到GPU中的打算。
从这个意义上说,措辞模型的革命具有和人类措辞的涌现同等级别的意义(图5)。

图5 按照起决定性浸染的信息动力学过程给地球的历史分阶段

0 3
AI的快与慢

3.1 人类的认知系统
下一个问题是本日的AI比起人类来说还有什么差别,这些差别是否是实质的。
为了理解这个问题,我们先来理解一下人类的认知系统。
人类大脑针对不同的任务会有不同的办理方案。
在最短的韶光尺度(几分之一秒)上,人紧张依赖于本能作出反应,例如紧急避险的动作,下意识地完成已经熟习的事情,不假思虑地回答问题,等等。
这套直觉系统被Daniel Kahneman命名为系统1(system 1)(《思考,快与慢》 [4] )。
系统1的特色是反应快,但要改变比较慢。
例如骑自行车形成的习气,换成骑三轮车就无法立时调度,每每是人已经意识到了精确的做法是若何,还是不能立时做到,须要新的演习建立新的习气才能节制新的技能。
当我们碰着更繁芜的问题,无法用直觉来办理的时候,我们会调出其余一套系统,通过故意识地思考来办理问题,这常日被称为系统2(system 2)。
与系统1比较,系统2有几个紧张的特色:
(1)利用措辞来思考。
系统1也可能涉及到措辞,但是这里措辞只是用来输出,并不是用于内心天下。
系统2则会利用措辞来进行推理,这对付分步骤处理不同的任务是至关主要的。
(2)调用影象。
系统1对付信息的处理也会部分地留存在影象中,但影象对付系统1不是必须的。
有很多不假思虑的反应也不会保存在影象里。
对付系统2,影象是必须的,由于思考的过程要保存在影象里,也会常常须要调用过去的履历,以及反思自己的行为是否达到了自己期望的结果。
系统2的调用影象能力非常关键,由于做过的事情会积累履历,让下次做同样的事情变得随意马虎。
(3)完成一件事情的速率比系统1要慢,但是可以更快的改变做法。
例如解一道数学题,原来我习气于采取一种解法,现在别人教了我一种新的解法,我以为有道理就可以立时切换到新的解法,不须要用大量数据来演习。
从这几点的剖析我们可以看到,系统2和系统1的差别是在韶光尺度上划分的。
系统2的存在是为了在比系统1更长的韶光尺度(例如几分钟,几天或者几年)上处理更繁芜的问题。
系统1和系统2的区分是一个比较粗略的二分法,实在更准确的来说,所谓系统2涵盖了从几分钟到几十年这样不同韶光尺度上的思维活动。
如果追问一下人为什么须要两套不同的系统,实质上是由于要具有人类这样的发达的智能必须哀求人能够在繁芜天下中办理问题,而天下的繁芜性一定意味着存在很多不同韶光尺度上的征象。
如果考虑一个大略的电子游戏的天下,只要关注当下的状态而无需考虑长远方案,那么通关这样的游戏也就不须要系统1和系统2的分工了。
繁芜天下就像物理系统中的临界点,在所有韶光尺度上都有非平庸的关联,而一个具有通用性的智能系统须要能够理解和利用所有这些不同尺度上的关联。
这样一个繁芜天下的范例特色是幂律分布(power law):当关联随着韶光的幂律衰减,就意味着不存在一个最大的韶光尺度,只须要预测短于这个韶光尺度的征象就足够了。
有趣的是,人类措辞中也存在着幂律分布,词频的Zipf定律 [5] :一种措辞中第 n 常见的词,涌现的频率正比于1/ n
这种幂律分布正是表示了措辞和它所描述的天下的繁芜性:虽然大部分词并不常见,但它们加起来霸占的比重却很高,不存在一个大略的截断,使得只用有限的常用词就可以描述万事万物。
正由于繁芜天下中一定存在韶光尺度的划分,才哀求人类以及未来的通用人工智能一定都有针对不同韶光尺度的不同认知系统,也便是系统1和系统2的区分。
3.2 系统1和系统2的关系
那么系统2是和系统1完备独立的另一套认知系统吗?并不是。
举个例子,如果我们要打算9乘9,就会根据影象直接给出结果81,不须要思考,因此这是一个别系1的事情。
如果我们要打算999乘999,就不能只凭影象,就要开始调用系统2开始思考。
我们可能会分成如下的步骤去做:
(1)利用999=1000-1,把问题转化为打算(1000−1)×(1000−1);
(2)用乘法分配律展开这个式子;
(3)打算1000×1000,1000×1,1×1;
(4)打算加法,得出结果。
在这个过程中,我们所做的事情是把问题拆解成步骤,直到每一个步骤(例如打算加法,运用分配律)变成我们系统1可以完成的任务。
从这个例子我们可以看出,系统2事情的办法是把问题拆解为一个流程图,这个流程图的每一个节点便是系统1的一个现有的能力。
换言之, 系统2是系统1组成的网络 。
系统2和系统1的关系还有另一壁:系统2得到的能力会在多次利用中为系统1供应演习数据,使得系统1得到新的能力。
例如上面例子中的乘法分配律,是小学学过了往后才变成了系统1能够处理的内容。
例如打算2 10 ,本来是一个别系2的事情,我会从2×2×2…开始一步步打算出2 10 =1024。
但由于这个数字在我的事情中常常用到,利用多次之后就会记住,变成了系统1可以完成的事情。
类似的例子也会发生在更繁芜的场景中。
例如在科学研究中,一位有履历的研究者会凭直觉选择某一种办理问题的方案,可能他自己都没有想到缘故原由,再回忆一下才知道为什么做出这样的选择。
这便是由于在过往的履历中演习出了系统1的直觉。
这样的演习在各种韶光尺度上都在发生。
详细办理某一问题的方法沉淀到系统1,我们会称为“履历”或者“直觉”,而在更长的韶光上,这些履历的凑集,会形成我们的“习气”和“性情”,个中很多部分可能终生保持稳定,但也有可能由于一些比较重大的内外成分的变革而发生改变。
系统1和系统2的关系总结如图6所示。

图6 人类的系统1和系统2的关系。
系统2是系统1的网络,系统2的利用带来的数据(履历)会反过来演习系统1
从这个剖析中我们可以看出,人类的认知过程可以按照韶光尺度分成一个连续谱,速率最快的“不假思虑”部分称为系统1,其他部分称为系统2,系统2得到新能力的过程是通过把已有能力组合成一个网络来实现的。
系统2在运用中积累的数据又会进一步用于优化系统1。
人类便是通过这种不同韶光尺度的能力之间的相互迭代优化,来迅速学习进步,处理繁芜天下中纷繁冗杂的任务的。
在图7中,我们列出了人类在不同韶光尺度上完成任务的一些例子。

图7 人类和人工智能的韶光尺度比较。
人类的系统2涵盖了从1秒到几十年的韶光尺度范围,可以针对不同的任务调度认知的韶光尺度。
比较之下,AI的快行为(推理)和慢行为(微调和预演习)之间存在空档,而且微调和预演习要通过人类干预才能完成
这样一个多尺度系统有点类似于一个城市的道路。
如果所有的道路都是方格子,限速都一样,会是一个非常低效率的交通系统。
最高效的道路系统是有速率的分层,去近处的车辆走速率低的小路,去远处的走快速路,更远处的走高速公路,这样一种方案办法之以是对付每个城市都适用,便是由于它面临的问题(交通需求)是按照尺度(出行的间隔)来分层的。
在物理学中对付我们理解物质状态至关主要的重正化群理论,也是通过剖析不同尺度的动力学之间的关系,来打消不主要的细节,预测物质态在何种情形下会发生质变(例如水的沸腾)。
3.3 人工智能认知的韶光尺度划分
现在让我们把同样的韶光尺度视角运用于大措辞模型。
我们会创造大措辞模型的事情办法非常类似于人类的系统1:过往的履历(演习数据)直接影响了模型的偏好。
如果输出涌现了缺点,模型不会自动通过思考去判断和纠错,而是“不假思虑”地输出它预测为最可能的答案。
无论面对的是更大略还是更难的问题,措辞模型输出的速率不会有差异。
虽然大模型能够完成繁芜的任务,例如编程,但其事情办法仍旧是“凭直觉”的,比如面对一个陌生(演习数据少)的任务,随意马虎涌现与熟习任务的稠浊。
一个范例的例子是我截图了一个关于三维黑洞的物理公式,请GPT4帮我转换成LaTeX格式,这本是一个非常随意马虎的任务,但GPT4由于更熟习四维黑洞的公式,总是会把输出的公式写错。
比拟人类的认知,我们会看到这是一种系统1的模式:要改变输出和输入的关系,必须输入大量数据去演习。
比起须要大量数据的预演习(pretraining),大模型在预演习之后也可以通过微调(finetuning)来优化某一方面的表现。
比起预演习,微调须要的数据量较少,是一种更快的改变模型行为的办法,但相应的能够带来的改变也更有限。
微调也可能会让模型在其他方面的能力有所退化。
按照韶光尺度来划分,我们可以把大模型的推理(inference),微调和预演习,排在韶光轴上(图7)。
比起人类的认知模式(图1),我们看到紧张的差异有两个:
(1)微调和预演习都须要人工完成。
如果演习大模型的公司不去进行微调和预演习,大模型的参数不会在与客户互动中自动调度。
换言之,大模型要学到任何新的东西,都须要人工的启动微调或者预演习的过程。
如果只是进行推理,大模型是一个无状态机器(stateless machine),除了保存在谈天记录的内容之外,就没有其他的状态参数会随着韶光改变。
(2)在作为快系统(系统1)的推理和作为慢系统的微调和更慢的预演习之间存在着一个空档。
人类的系统2可以浸染于任何比系统1更长的韶光尺度,而AI目前并没有办法灵巧地调度学习和运用新技能的韶光尺度。
和人类的认知比较较,我们看到AI所短缺的正是系统2。
现有的大措辞模型(LLM)就像一个所有街道只有一种限速的城市道路系统,要想改进交通状况只能整体或者局部翻修道路(预演习或者微调),其改进的效率远不如以适当的比例引入不同速率的快速路和高速公路。
根据我们对人类认知系统的剖析,系统2是通过系统1的网络来实现的。
构建系统2,便是要让AI具有自己组织系统1的网络来构建新工具、办理新问题的能力。

0 4
通向系统2:AI智能体

总结一下前文所说的内容,我们看到本日的大措辞模型已经超越信息繁芜度的临界点,演习了一个强大的系统1,这也为下一步,即构建系统2铺平了道路。
从人类认知的例子中我们可以看出,系统1是构建系统2的基本单元。
因此AI的系统2也便是系统1(大模型)组成的网络,也便是通过多次调用大模型完身分歧的子任务,来实现更繁芜的功能。
这个方向过去一年中也有越来越多的研究,常日被称为AI智能体(AI agents)。
通过多个LLM分工互助,并且拥有长期影象,原则上说可以实现从系统1到系统2的扩展。
下面我会通过几个例子来阐明一下AI智能体的基本观点。

第一个例子是著名的“chain-of-thought”(思维链)提示策略(图8) [6] 。
对付一个给定的问题,例如一道数学题,如果不是让AI直接输出答案,而是一步步输出中间过程,就可以提高AI的推理准确度。
在最大略的实现办法中,AI根据输入 x 来输出中间步骤 z 1 , z 2 ,… z n ,然后再得出结论 y ,以是这可以认为还是一次调用LLM。
如果应对更繁芜的问题,可以让AI先写出这个中间步骤的链条,再针对每一步去细化其内容,这便是多次调用LLM,也可以算作是最大略的智能体。
在一篇2023年的事情中 [7] ,作者将这个策略推广到了“思维树”,即在每一步推理之后让AI产生一些可能的下一步,形成一个树状的构造,再去评估哪一种策略更可行。
通过这种办法可以进一步提高AI解题的准确率。
沿着这一方向,后续也有事情将思维树再推广成更一样平常的思维图(graph of thought) [8] 。

图8 几种不同的对大模型的调用办法   (a)给定问题直接输出答案;(b)思维链提示词;(c)多条思维链再做多数表决;(d)思维树 [7]

第二个例子是斯坦福大学一个研究组设计的AI虚拟小镇(图9) [9] 。
这个事情设计了一个虚拟游戏环境,有25个AI智能体生活在一个虚拟小镇中。
每个智能体都有自己的人物设定(学生、老师平分歧身份)、影象(每天经历的事情,碰着的人)。
智能体会根据影象和自己的设定来决定下一步做的事情,也须要对付经历过的事情进行反思,把主要的信息存入影象中。
智能体之间的社交互动表现出了繁芜的行为,例如组织一次生日聚会。
在这个例子中,每个智能体都须要有系统2,通过调用长期影象、操持和反思来实现繁芜的社会行为。

图9 AI虚拟小镇 [9]

第三个例子是通过多次调用LLM和多个智能体之间的对话来完成一个繁芜任务。
这方面有很多事情,范例的例子是最早提出的autoGPT [10] 和微软开拓的AutoGen(图10) [11] 。
对付人类用户提出的一个任务,AI会先做出操持,然后去实行,碰着问题再自己打消故障,如此循环迭代。
LLM之间会通过对话来办理问题,比如一个LLM卖力写代码,另一个卖力运行代码和返回结果或者缺点。

图10 AutoGen示意图 [11] (a)AutoGen的智能体可以包括大模型或者其他工具,也可以包括人的输入;(b)AutoGen的智能体之间可以通过对话办理问题

末了举一个物理学的例子,在一篇2024年的事情中,康奈尔大学的一个研究组用GPT来分步骤进行Hartree—Fock近似的打算(图11) [12] 。
在科研中,有很多已经成熟的推导或者打算内容可以用类似的办法来自动化。
绝大部分这样的任务不是直接调用LLM就可以完成的,而是须要设计这样的多步骤流程,也便是须要用到AI智能体。

图11 LLM分步骤自动进行Hartree—Fock打算 [12]

AI智能体的主要性越来越成为广泛的共识 [13] ,但其研究事情还处于早期阶段。
目前的各种运用仍是考试测验性的,比拟人类的系统2,我们可以看到人工智能要发展出真正通用的系统2须要战胜以下几点寻衅:

(1)自组织能力。
目前的智能体运用仍旧依赖于人设计好的事情流(workflow)。
要让AI智能体能够成为AI的系统2,就要让AI自己能够进行操持,设计出完成一件事情须要的事情流,并且不断根据反馈来改进这种设计事情流的能力。
要形成这样的自组织能力,须要AI对付自己的系统1能够实现的各种能力具有良好的把握,能够从各种基本能力中准确的搜索和调用精确的组件来实现更繁芜的功能。

(2)系统2沉淀成系统1的能力。
在前面我们谈论过人类是如何把本来须要系统2的能力“熟能生巧”沉淀回系统1的。
AI要不断扩展它的能力,关键在于也要具有这样的能力,对付常见的任务可以逐渐降落推理本钱,而不是每次重复同样的打算。

(3)打算本钱。
目前AI的打算成本相对付人而言仍旧高得多。
人面对一件事情可以同时有很多思路,从中迅速作出判断选择,这对目前的AI来说须要很多次的反复调用来实现,个中的速率问题、准确度问题为智能体真正运用于实际问题带来了困难。
但我们也要看到AI打算本钱正在迅速低落,各大模型贬价速率很快,随着打算需求的不断增加,根本举动步伐的生产不断跟上,未来几年打算本钱将会连续大幅低落。

办理这些寻衅,在大模型根本上构建通用性的系统2,是实现通用人工智能(AGI)的关键一步,也是笔者现在的一个重点事情方向。

0 5
总结与展望

总结一下,本文综述了大措辞模型的基本事理和最近的进展,并且从信息动力学的角度剖析了大措辞模型对人工智能发展的意义。
基于大措辞模型与人类认知系统的比较,本文提出人工智能的下一步是系统2,而AI智能体这个方向与系统2的发展密切干系。
本文对付AI智能体方向的一些发展给出了一些概述,并磋商了下一步事情紧张须要应对的寻衅。

在接下来的5—10年,人工智能的发展将会给人类社会的各方面带来深远的影响,乃至是翻天覆地的变革。
在各方面的影响中,对付科学研究等创新事情的影响可能是最深刻的变革之一。
如何运用人工智能来帮助科学研究,是非常值得深入思考和探索的问题。

参考文献

(参考文献可 高下滑动 查看)

中子弹是怎么一回事?| 《物理》50年精选文章

晶体毛病研究的历史回顾 | 《物理》50年精选文章

相变和临界征象(Ⅰ) | 《物理》50年精选文章

相变和临界征象(Ⅱ) | 《物理》50年精选文章

相变和临界征象(Ⅲ) | 《物理》50年精选文章

凝聚态物理的回顾与展望 |《物理》50年精选文章

声学与海洋开拓 |《物理》50年精选文章

模型在物理学发展中的浸染 |《物理》50年精选文章

我对吴有训、叶企孙、萨本栋师长西席的点滴回顾 | 《物理》50年精选文章

国立西南联合大学物理系——抗日战役期间中国物理学界的一支奇葩(Ⅰ) | 《物理》50年精选文章

国立西南联合大学物理系——抗日战役期间中国物理学界的一支奇葩(Ⅱ) | 《物理》50年精选文章

原子核裂变的创造:历史与教训——纪念原子核裂变征象创造60周年 | 《物理》50年精选文章

回顾与展望——纪念量子论出身100周年 | 《物理》50年精选文章

我的研究生涯——黄昆 | 《物理》50年精选文章

中国理论物理学家与生物学家结合的典范——回顾汤佩松和王竹溪师长西席对植物细胞水分关系研究的历史性贡献(上) |《物理》50年精选文章

中国理论物理学家与生物学家结合的典范——回顾汤佩松和王竹溪师长西席对植物细胞水分关系研究的历史性贡献(下) |《物理》50年精选文章

为了忘怀的怀念——回顾晚年的叶企孙 | 《物理》50年精选文章

从分子生物学的进程看学科交叉——纪念金螺旋论文揭橥50周年 | 《物理》50年精选文章

俏丽是可以表述的——描述花卉形态的数理方程 | 《物理》50年精选文章

爱因斯坦:邮票上的画传 | 《物理》50年精选文章

趣谈球类运动的物理 | 《物理》50年精选文章

须臾九十载 |《物理》50年精选文章

一本培养了几代物理学家的经典著作 ——评《晶格动力学理论》 |《物理》50年精选文章

朗道百年 |《物理》50年精选文章

以天之语,解物之道 |《物理》50年精选文章

软物质物理——物理学的新学科 |《物理》50年精选文章

宇宙学这80年 |《物理》50年精选文章

熵非商——the Myth of Entropy |《物理》50年精选文章

物理学中的演生征象 |《物理》50年精选文章

普渡琐记——从2010年诺贝尔化学奖谈起 |《物理》50年精选文章

我的学习与研究经历 | 《物理》50年精选文章

景象预报——由履历到物理数学理论和超级打算 | 《物理》50年精选文章

纪念Bohr的《伟大的三部曲》揭橥100周年暨北京大学物理专业建系100周年 | 《物理》50年精选文章

同步辐射历史及现状 |《物理》50年精选文章

麦克斯韦方程和规范理论的不雅观念起源 |《物理》50年精选文章

空间科学——探索与创造之源 | 《物理》50年精选文章

麦克斯韦方程组的建立及其浸染 |《物理》50年精选文章

凝聚态材料中的拓扑相与拓扑相变——2016年诺贝尔物理学奖解读 |《物理》50年精选文章

我所熟习的几位中国物理学大师 |《物理》50年精选文章

量子力学诠释问题 |《物理》50年精选文章

高温超导研究面临的寻衅 |《物理》50年精选文章

非常规超导体及其物性 | 《物理》50年精选文章

真空不空 | 《物理》50年精选文章

通用量子打算机和容错量子打算——观点、现状和展望 | 《物理》50年精选文章

谈书说人之一:《理论物理学教程》是若何写成的?| 《物理》50年精选文章

奋斗 机遇 物理 |《物理》50年精选文章

关于量子力学的基本事理 |《物理》50年精选文章

时空奇点和黑洞 ——2020年诺贝尔物理学奖解读 |《物理》50年精选文章

凝聚态物理学的新篇章——超越朗道范式的拓扑量子物态 | 《物理》50年精选文章

物理学思维的艺术 | 《物理》50年精选文章

对付麦克斯韦方程组,洛伦兹变换的低速极限是伽利略变换吗?| 《物理》50年精选文章

杨振宁师长西席的研究品味和风格及其对造就精彩人才的启迪 | 《物理》50年精选文章

庞加莱的狭义相对论之一:洛伦兹群的创造  | 《物理》50年精选文章