人工智能行业专题研究:AI Agent通往AGI的核心根本_才能_模子
AI Agent:下一代大模型的核心能力。Agent 能力的实现,还是须要大模型具备相应的能 力。我们的判断:Agent 或是下一代大模型边际变革最大的能力。我们可以看到,GPT-4o 模型已经开始具备 Agent 能力雏形,Google 的 Astra 也开始具备人机多模态交互多步骤任 务完成的能力。
AI Agent:能力表示。如何从用户角度感知 Agent 能力?我们将其总结为:连续、繁芜、 多步骤、多任务的实行能力。1)连续:指的是大模型能够对用户的任务指令,进行任务拆 解,分解为多个步骤,对步骤进行方案排序、连续实行。2)繁芜:目前大模型智能办理单 个任务,或者大略少数多个任务,无法完成多个繁芜任务。3)多步骤:多步骤与连续密切 干系,在大模型实行后续步骤的同时,能够对任务目标和前序任务随时保持影象,步骤的 方案实行能力要强。
我们认为,AI 大模型的 Agent 能力是通往 AGI 的核心根本。我们或将看到 Agent 能力有望 逐步表示:1)单一大略任务实行,2)单一繁芜任务实行,3)多步骤大略任务实行,4) 多步骤繁芜任务实行,5)连续多步骤繁芜任务实行。这些能力的实现都依赖于大模型能力 的提升。我们认为,Agent 能力有望在 GPT-4 的后续模型中逐步表示出来。其余须要特殊 把稳的是:Agent 是一种能力,是 AI 重构人机交互办法实现的工具。Agent 能力既可以通 过 AI 重构硬件来实现,也可以通过 AI 改造软件来表示(软件的自动化实行)。
AI Agent:LLM 推动 AI Agent 进入新阶段LLM 推动 AI Agent 进入新阶段。AI Agent 经历了几大阶段,包含:1)符号 Agent:采取 逻辑规则和符号表示来封装知识并促进推理过程,范例代表为基于知识的专家系统;2)反 应 Agent:紧张关注 Agent 与其环境之间的交互,强调快速和实时的相应,设计时优先考 虑直接的输入输出映射;3)基于强化学习的代理:紧张关注如何使 Agent 通过与环境的互 动进行学习,范例代表如 AlphaGo;4)具有迁移学习和元学习的 Agent:引入迁移学习实 现不同任务之间知识的共享和迁移,通过元学习使 Agent 学习如何学习;5)基于大型措辞 模型(LLM)的代理。将 LLM 作为大脑的紧张组成部分或 Agent 的掌握器,并通过多模态感 知和工具利用等策略扩展其感知和行动空间,通过思维链(CoT)和问题分解等技能使 Agent 得到与符号代理相称的推理及方案能力,并且可以通过从反馈中学习和实行新的行动,获 得与环境的互动能力。
智能助手到 Agent:由搜索匹配走向方案与交互式决策
谈天机器人:紧张基于知识图谱、检索等技能。为在 AI Agent 之前,范例的以人机自然交 互为特点的产品包括智能语音助手、开域谈天机器人。从架构看,开域谈天机器人以发布 于 2014 年 5 月的微软小冰为例,其架构紧张包括对话管理模块、技能库,个中对话管理模 块紧张利用同理心打算方法,利用对话背景、用户查询、用户信息等维度的信息构建对话 状态向量,并据此决定之后的对话策略。谈天模块则通过检索产生回答候选集(包括基于 配对数据的检索、利用 GRU-RNN seq2seq 框架的神经相应天生器、知识图谱+未配对数据 等方法),并利用排序模块进一步选择回答。从技能上看,开域谈天机器人具备 AI Agent 的雏形,紧张通过向量打算、基于 RNN 框架的天生、知识图谱强化等技能实现对人类意图 的准确理解及回应。 智能语音助手:架构上已经具备意图剖析、任务方案、做事调用等模块。以 Siri 为例,智 能语音助手的架构与 AI Agent 具备一定相似性。该系统可划分为输入系统、生动本体、执 行系统、做事系统和输出系统五个子系统。在生动本体内部,利用各种词典资源,模型资 源实例化对用户的输入信息进行详细加工;实行系统则是将用户原始的文本输入解析为内 部的语义表示,并决定下一步操作,包括“对话流掌握器”(根据领域判断勾引用户供应所 需的参数)、“任务流掌握器”(被“对话流掌握器”调用,界定完成一件任务或者办理某个 问题由哪些步骤构成, 这些步骤之间是何种关系,Siri 的任务模型是由一些领域无关的通用 任务模型和多少领域干系任务构成)。我们认为从架构上看,智能语音助手已经具备意图分 析、任务方案、做事调用几大核心模块。
从输入到输出,AI Agent 技能框架基本确立。当前对 AI Agent 整体框架的设计基本上可以 分为感知、定义、影象、方案、行动五类模块,个中感知模块紧张处理各种输入,办理智 能体与环境交互的问题;定义模块紧张包含了 Agent 的属性、目标等信息;影象模块包括 短期影象及长期影象,用于面对繁芜任务时供应历史策略等;方案模块包括任务的分解、 反思、推理推断、策略制订等,是 Agent 的大脑;行动模块包括以笔墨、具身行动、工具 指令等多种形式输出结果。从倾向于输入真个感知、定义,到处理真个影象、方案,再到 输出真个行动,我们认为 AI Agent 的技能框架与此前智能语音助手的技能框架在模块设置 上存在一定相似性。
AI Agent 架构与当前主流打算架构有相似性。在《Agent AI Towards a Holistic Intelligence》 中,研究职员阐述了新的 Agent 范式,Agent AI 能够基于感官输入自主实行适当的和高下 文干系的动作,与先前互动策略的差异是在演习后,主体的行动将直接影响任务方案,而 不须要从环境中吸收反馈来方案其后续行动作为先前的互动范式。当前打算机主流的冯·诺 依曼构造则是事先将体例好的程序(含指令及数据)存入主存储器中,打算机在运行程序 时自动地、连续地从存储器中依次取出指令且实行。从构成上看,冯·诺依曼机由运算器、 存储器、掌握器、输入设备和输出设备五大部件组成;AI Agent 同样具备输入信息、处理 信息、输出信息的三大部件,在架构上二者具备相似性。
AI Agent 是 LLM 和人类在打算任务等分工的重新划定。比较主流的打算架构,AI Agent 实现了能力的进一步提升。AI Agent 紧张由在环境和感知中具有任务方案和不雅观察能力的 Agent(感知可类比输入、方案可类比人类方案)、Agent 学习(强化学习,类比人类反思)、 影象(类比存储)、行动(类比输出)、认知和意识(类比掌握)五个模块构成,模块上基 本能够对应。从浸染上 AI Agent 的感知方面更加强调对付多模态信息的获取能力,不局限 于数据的输入;认知方面紧张用于折衷每个 Agent AI 组件,强调了繁芜动态环境中交互式 Agent 的集成方法的主要性,突出了交互式决策的浸染。我们认为 AI Agent 实现了将人类 利用编程办理特界说务的过程进一步的接管,从办理问题的实行环节进一步向思考如何解 决问题的方案环节渗透。
AI Agent 具备两条能力提升路径。根据分工划分模块的办法是当前得到较为广泛采取的 AI Agent 技能框架,与之对应的,针对 AI Agent 的能力提升同样可以从分模块能力打破、系 统性优化两条路径展开。在分模块能力打破中,比较于 LLM 支撑的谈天机器人(如 ChatGPT),我们认为 AI Agent 在感知模块中具备更加丰富的模态理解能力,在影象模块 中能够结合更加丰富的数据来源,在方案模块中具备更强的方案、反思能力,在行动模块 中能够供应更加丰富的输出,此外在系统性优化的过程中,AI Agent 也有望逐步向通用人 工智能过渡。
分模块持续打破+系统性优化推动 AI Agent 能力提升
感知:模型端原生多模态推进,Agent 多模态感知能力可期
感知模块:从单一模态向多模态延伸。感知模块的核心功能紧张是帮助 Agent 获取信息, 可以与打算机中的鼠标、键盘等各种输入设备进行类比。从核心功能看,基于 LLM 的 AI Agent 在信息输入方面强调多模态感知的能力,包括视觉、听觉、触觉等感知能力,涉及文 本、图像、视频、3D 等多种模态。从落地路径看,当前对付跨模态的落地方式紧张包括通 过变换器将非文本模态转为文本模态、对非文本模态进行编码并将编码器与 LLM 对齐,或 通过结合思维链技能、结合知识,强化 Agent 对付不同模态信息的理解能力。
端到端原生多模态模型不断落地。从家当进展看,端到真个原生多模态模型逐步落地。2023 年 11 月 Google 推出原生多模态模型 Google Gemini,从一开始便在不同模态上(包括文 字、音频、图片、视频、PDF 文件等)进行了预演习,然后利用额外的多模态数据进行微 调以提升有效性,实现了多模态数据演习的打破。2024 年原生多模态模型在运用端进一步 取得打破,2024 年 5 月 Open AI 发布 GPT-4o,不同于传统的模型级联和拼接,GPT-4o 是跨文本、视觉和音频端到端地演习的新模型,这意味着所有输入和输出都由同一神经网 络处理,基于此,我们认为相较于此前的智能语音助手,基于 LLM 的 AI Agent 对付多种模 态信息的综合处理能力进一步加强。
影象:模型端高下文长度持续打破,向量外部存储与检索强化长期影象
影象模块:短期影象关注模型变革,长期影象关注数据处理与检索技能。在影象模块中, 现有研究多数把影象划分为短期影象、长期影象,个中短期影象紧张来自于高下文学习, 受到 Transformer 的有限高下文窗口长度的限定,长期影象则具备参数知识存储(模型演习)、 非参数知识存储(外部搜索)的办法实现,目前常用的办法紧张是通过外部向量存储,Agent 以查询的办法快速检索访问。相较于智能语音助手产品长期影象紧张影象的是用户个人信 息等静态信息,长期影象的内容进一步丰富、数据量进一步提升;短期影象系统则实现了 更长的对话内容支持,有助于进一步办理繁芜问题。
大模型支持高下文长度持续上升,外部存储办法不断丰富。随着大模型的迭代持续推进, 当前大模型所能支持的高下文长度不断提升,2024 年 5 月 Google 在 Google I/O 2024 开 发者大会上宣告推出 Gemini 1.5 Pro 的个人预览版,最多可容纳 200 万 token 数。我们认 为随着大模型支持高下文长度的提升,大模型赋能的 Agent 在短期影象能力方面或将进一 步上升。在长期影象方面,外部存储的办法也不断丰富,供应干系产品的厂商包括向量数 据库厂商、添加向量检索功能的传统数据库厂商、封装向量及知识库的运用厂商。
方案:关注 LLM 对付任务分解算法及反思提炼能力的改变
方案模块:目标分解与反思提炼为两大核心任务。方案模块是 AI Agent 能够办理繁芜问题 的关键模块,从功能重视要包括子目标分解、反思及提炼等,其核心能力来自于底层模型 的推理能力。打算机出身初期,多步骤问题的方案每每由人脑完成,打算机充当办理问题 的工具。而随着任务分解算法(如层次化任务网络 (HTN)、任务树、分层强化学习、规则 引擎等)的发展,打算机开始承担部分的方案任务,如智能语音助手中的任务流掌握器主 要用于分解任务步骤,判断步骤关系,RPA 与业务规则引擎结合实现业务流程的自动化等。 随着 LLM 技能的发展,通过微调或思维链(CoT)等技能对 AI Agent 进行干预,使 Agent 逐步提升了方案的效率。
利用 ReAct 办法发挥 LLM 推理能力。ReAct(Reasoning and Acting)指利用 LLM 以交错 的办法天生推理轨迹和特定于任务的操作,从而实现两者之间的更大协同浸染:推理轨迹 帮助模型勾引、跟踪和更新行动操持以及处理非常,而操作许可它与外部源(例如知识库 或环境)交互以网络更多信息。详细可通过为每个工具供应描述,让 LLM 选择工具,或为 Agent 供应搜索工具、查找工具,让 LLM 与文档库交互。ReAct 办法能够将必要的知识提 供给 LLM 供其剖析决策,避免其因利用超出演习过程中的数据进行逻辑剖析时产生幻觉和 缺点判断的情形。但从当前的实践看,ReAct 办法仍旧存在对付繁芜问题的办理能力有限、 成本相对不可控(LLM 拆解、循环任务的办法存在不愿定性)、相应速率较 API 慢等局限性。 我们认为未来随着 LLM 性能的提升及 LLM 工程化落地方式的创新,LLM 推理能力有望得 到更加充分的发挥。
行动:工具利用能力为关键,具身智能为新方向
行动模块:关注微调、工具利用与具身智能技能发展。行动模块是 AI Agent 输出推理结果, 对外部产生影响的主要途经,从输出的形式看包括文本、对工具的利用、具身动作等。在 工具利用方面,当前紧张的落地方式是通过微调或预先设定的模型描述框架,让 Agent 调 用对应的外部 API,从而实现对现成功能的利用或对特定信息的访问搜集。而通过元工具学 习等方法,Agent 对付工具的利用能够在同类型的不同详细工具之前实现技能的迁移,未来 随着模型能力的进一步提升,Agent 有望实现对工具的创建;随着具身智能技能的发展, Agent 有望对物理天下产生进一步的影响。
多路径共同提升 Agent 整体智能化水平,有望逐步通向整体智能
LLM+Agent 是通向通用人工智能(AGI)的路径之一。AI Agent 用来描述表现出智能行为 并具有自主性、反应性、主动性和社交能力的人工实体,能够利用传感器感知周围环境、 做出决策,然后利用实行器采纳行动,具备以上特色的 Agent 是实现 AGI 的关键一步。据 2023 年 11 月 Google DeepMind 发布的论文《Levels of AGI: Operationalizing Progress on the Path to AGI》,考虑 AGI 性能、通用性和自主性级别,AGI 的发展可按 L0-L5 分级。按 该分级方法,目前在狭义 AI 上人类已经实现了在特定的任务上让 AI 超越人类,但是对付广 义的 AGI 仅实现到 L1 阶段,范例代表是 ChatGPT、Bard 和 Llama。从更广义的评判标准 看,基于 LLM 的 Agent 评估事情还从效用、社会性、代价等角度开展,我们认为当前基于 LLM 的 Agent 从能力上看受到 LLM 能力上限的限定,未来随着 Agent 的不断升级,有望逐 步逼近 AGI,详细的路径包括模态丰富、具身智能、多 Agent 协同、系统优化等。
路径一:模态丰富+具身智能+多 Agent 协同
Agent 具有五个层级,信息维度不断丰富有望推动能力提升。Yonatan Bisk 在《Experience Grounds Language》中提出 World Scope (WS),来描述自然措辞处理到通用人工智能(AGI) 的研究进展,包括语料库-互联网-感知(多模态 NLP)-具身-社会 5 个层级。当前多数 LLM 建立在互联网层级,具有互联网规模的文本输入和输出。而随着 LLM 进一步配备扩展的感 知空间和行动空间,有望进一步通向感知、具身层级,未来多个 Agent 共同事情,有望产 生呈现的社会征象,达到第五层级。
多 Agent 协同或涌现团体行为,提升智能化程度。从 Agent 落地方式看,可分为单 Agent 支配、多 Agent 交互和人-Agent 交互三种办法,个中多 Agent 交互及人-Agent 协同通过不 同的办法给予 Agent 反馈,有助于 Agent 不断强化办理问题的能力。更进一步的仿照 Agent 社会框架中,在个人层面 Agent 表现出操持、推理和反思等内在行为,以及涉及认知、情 感和性情的内在个性特色。Agent 和其他 Agent 可以组成团体并表现出团体行为,如互助。 在环境中其他 Agent 也是环境的一部分,Agent 有能力通过感知和行动与环境互动。
关注根本智能体进展。据英伟达科学家 Jim Fan 的演讲,根本智能体(Foundation Agent) 是节制广泛技能,掌握许多身体,并能够泛化到多个环境中的单一算法。随着模型得到信 息数量的提升及演习速率的加快,理论上模型能够节制的技能数量、可掌握的身体形态或 载体、所能节制的现实情形有望不断提升。例如在 Minecraft 中,Voyager 通过引入反馈(来 自代码运行缺点、虚拟人物状态、虚拟环境状况),使虚拟人物在游戏环境中能够不断学习 新的技能;机器人演习 Agent MetaMorph 通过设计分外词汇描述机器人的详细身体部位, 利用 Transformer 输出电机掌握,实现对机器人的掌握。通过对演习进行加速,有望将 Agent 的能力进一步泛化,终极实现自主的根本 Agent。
路径二:通过提升整体性或利用事情流办理繁芜问题
通过提升 Agent AI 整体性有助于办理繁芜问题。除了单个模块、环节的技能打破,模块间 的互动办法也是 Agent 能力的主要影响成分。当前的 AI Agent 对付被动构造化任务的处理 已有较为丰富的实践,但间隔在繁芜环境中扮演动态互动角色仍有一定的差距,我们认为 除了单个模块的能力提升,环绕 AI Agent 整体系统的优化或将成为 AI Agent 能力进一步提 升的主要驱动力。据《Agent AI Towards a Holistic Intelligence》,研究职员提出一个将大 型根本模型集成到 Agent 动作中的具体系统——Agent AI 系统,该系统强调 AI 作为有凝聚 力的整体发挥浸染。按系统层级看,自下而上分别为数据-预演习模型-调优模型-任务-跨模 态-不可知的现实(新范式/物理天下/虚拟现实/元宇宙/呈现能力等)-整体智能。在数据端, 该系统强调利用不同环境之间的交互获取的跨模态数据,在系统端则结合了大型根本模型 对开放天下环境中感官信息的理解,终极 AI 展示了较好的跨学科、跨任务能力,涵盖了机 器人、游戏和医疗保健系统等新兴领域。长期看该路径或将逐步通向整体智能。
Agent Workflow 通过流程优化提升任务效果。2024 年 3 月,斯坦福大学吴恩达教授在博 客中提出在 HumanEval 数据集中,利用 GPT-3.5(Zero-shot)的测试精确率为 48.1%。 GPT-4(Zero-shot)为 67.0%。而通过与 Agent workflow 合营,GPT-3.5 实现了 95.1%的 精确率。在加入 Agent workflow 后,模型在详细任务中的能力有了明显的提升。Agent workflow 是一种新的事情流程,哀求 LLM 多次迭代文档。从设计模式上,Agent 有四种模 式:1)Reflection(反思):让智能体核阅和改动自己天生的输出;2)Tool Use(利用工具): LLM 被授予 Web 搜索、代码实行或其他功能,以帮助它网络信息、采纳行动或处理数据;3) Planning(规 划 ): 让 LLM 提出并实行一 个多步骤操持来实现目 标; 4) Multiagent collaboration(多智能体协作):多个智能体互助完成任务。我们认为 Agent Workflow 通过对 LLM 运用的流程优化,有助于提升 Agent 办理详细任务的准确性,LLM 运用端厂商有望借 鉴此方法推动更多垂类 LLM 落地。
AI Agent 技能逐步落地,智能性仍有提升空间
从 AI Agent 的落地方式看,基于 LLM 的 Agent 产品浩瀚,但各清闲自主程度,能力范围上 有一定差异。本节我们选取部分范例案例展开剖析,详细包括: AutoGPT(2023.3)、卡 耐基梅隆大学智能 Agent 系统(2023.4)、Devin(2024.2)。
AutoGPT:利用 LLM 逐步拆解任务,外挂插件提升能力
AutoGPT 具备 AI Agent 的雏形。AutoGPT 是一个构建在 GPT-4 根本上的开源 Python 应 用程序,由视频游戏公司 Significant Gravitas Ltd 的创始人 Toran Bruce Richards 于 2023 年 3 月 30 日推出,其功能包括从互联网网络信息、存储数据、通过实例天生文本、访问各 种网站和平台以及利用 LLM 实行择要的能力,常用于市场研究、网站创建、博客写作和创 建播客。从所需工具看,构建 AutoGPT 须要 Python(程序)、OpenAI API 密钥(大模型)、 Pinecone API 密钥(向量数据库产品)、Git(开放源码版本掌握)、ElevenLabs API(可选 语音干系模块)。我们认为 AutoGPT 具备实现多种任务的能力,具备 AI Agent 的雏形。
利用 LLM 拆分任务。从实现功能的步骤看,AutoGPT 的构建分为:1)本地下载 Auto-GPT 项目及干系资源;2)输入 AI 名称、AI 角色以及最多 5 个目标;3)任务创建或排序:理解 目标,天生任务列表,并提及实现这些任务的步骤,审查任务顺序以确保其在逻辑上故意 义;4)任务实行:利用 GPT-4、互联网和其他资源来实行这些任务;5)天生结果:详细 结果形式包括 Thoughts(AI Agent 在完成动作后分享他们的想法)、Reasoning(阐明了为 什么选择特定的行动方针)、Plan(该操持包括新的任务集)、Criticism(通过确定局限性或 担忧来批驳性地审查选择),实质上是 ReAct(Reason+Act)的运用。从实现步骤看,人 类在个中给出基本的任务步骤后,AutoGPT 通过调用 LLM,实现对任务的理解与拆分。 LLM 分解任务受模型能力及数据的限定。AutoGPT 的能力范围仍旧受到 Python 函数集能 力边界的限定,在搜索网络、管理内存、与文件交互、实行代码和天生图像等具备较丰富 可调用函数的领域效果较好,但对付更为繁芜的任务处理能力有限。此外,LLM 在分解问 题的模式上较为固定,并且存在受到预演习数据和知识的限定,对付重复涌现的子问题识 别能力不敷等问题。
通过调用插件实现能力的扩展。2023 年 6 月 Auto-GPT 更新至 v0.4.1,AutoGPT 对付插件 的支持进一步强化,从插件的功能看,第一方插件紧张功能包括信息检索(搜索引擎、新 闻、社媒、百科等)、任务方案、智能天生(邮件回答等)、API 调用等;第三方插件则实现 了对 AutoGPT 能力边界的进一步扩展,添加了交易、利用 AI 工具、数据库查询、功能集 成等。我们认为插件帮助 AutoGPT 进一步提升了用工具获取信息、加工信息的能力,使得 Agent 的能力边界得到进一步的延展。
卡耐基梅隆 Agent:利用 LLM 强化信息获取及工具利用
利用 LLM 强化搜索。2023 年 4 月卡耐基梅隆大学在论文《Emergent autonomous scientific research capabilities of large language models》中提出了一个智能代理系统,它结合了多 种大型措辞模型,用于自主设计、方案和实行科学实验。个中利用 LLM 的模块包括“网页 搜索器”、“文档搜索器”,无需 LLM 的模块包括“代码实行器”、“自动化”,另有 Planner 模块用于折衷各个细分模块。Planner 模块输出 Google 查询指令给网页搜索器、输出文档 查询指令给文档搜索器,进行文档的查找梳理,为实行部分供应所需的参数及文档信息, 末了由代码实行器、自动化模块进行实验。在此案例中,LLM 紧张用于强化文档及互联网 知识的检索,本色上对详细任务的实行过程由搜索结果得到。
通过细分领域内容提升实行准确度。在本案例中,通过为文档搜索领域添加垂直领域内容 有助于提升实行的准确度。详细来重视要有两种办法,第一种是通过对指令进行编码并结 合向量搜索,对专门的 API 文档进行搜索与匹配,提升输入 Planner 的编码质量;另一种 办法是通过补充文档指南,提示利用专用工具的特定措辞体系进行功能推举。结合了专业 知识库及文档后,Agent 的知识范畴不再局限于大模型演习的语料,能够完成对详细工具的 精确利用。在本案例中,Agent 自动调度代码以应对专用软件包缺失落、自动搜索解释文档调 整工具的效果,并完成了布洛芬的合成、阿司匹林合成、铃木反应研究、天冬氨酸合成。
Devin:利用 AI 实现自主编程
Devin利用 AI实现自主编程。2024年3月AI初创公司Cognition发布AI软件工程师Devin, Devin 可以方案和实行须要数千个决策的繁芜工程任务,可在每一步都回顾起干系的高下文, 随着韶光的推移学习,并纠正缺点,此外 Devin 还可以与用户积极协作,实时报告其进度, 接管反馈,并根据须要与用户一起完成设计选择。研究职员在 SWE 基准上评估了 Devin, 哀求代理办理 Django 和 scikit-learn 等开源项目中创造的现实 GitHub 问题。Devin 端到端 精确办理了 13.86%的问题,远远超过了之前 1.96%的最前辈水平。Devin 没有得到帮助, 而所有其他模型在给出了要编辑的确切文件的条件下,以前最好的模型也只能办理 4.80% 的问题。
多种 AI 技能结合,Agent 形态初具。从技能方面,Devin 集成了机器学习、深度学习和自 然措辞处理,以理解代码、从现有模式中学习并自主天生代码,并配备了自己的代码编辑 器、命令行和浏览器。从 Devin 的任务实现办法看,紧张分为几个步骤:1)理解用户意图, 通过 LLM 等 NLP 技能剖析用户的自然措辞描述,提取关键功能和哀求,将用户分解为任务 清单;2)自主学习专业材料(如 API 文档、开源库、源码),节制代码构造,LLM 技能可 用于加强对专业材料的理解能力,代码构造的模式识别与匹配则可以通过机器学习模型强 化;3)天生代码并根据用户的提示调 Bug。我们认为从实现办法看,对付现有文档的学习 与实践,已经初步具备 Agent 的形态,未来随着模型能力的进一步提升,Agent 在细分领 域的能力有望进一步提升。
AI Agent:智能性仍有提升空间,关注 Agent Workflow
模型架构打破+特天命据推动 LLM Agent 能力打破。从 AI Agent 的落地方式看,基于 LLM 的 Agent 实践已经取得一定的成果。详细包括:1)利用 LLM 较强的文本处理能力,实现 了信息检索及工具利用效率的提升;2)利用 LLM 的任务分解能力,实现了大略问题的步 骤分解与方案;3)利用 LLM 的文本天生能力,打造更加自然的人机交互;4)利用 LLM 的可调试性,打造能够办理垂直领域任务或具备垂直领域知识体系的运用。以上能力打破 的根本一方面来自于 Transformer 架构下,LLM 能力比较传统 NLP 方法的效率提升,如更 加自然的人机交互、更强的文本处理能力;另一方面则来自于特天命据类型演习授予 LLM 的能力,如从任务分解数据演习中得到的任务方案能力、配置特定文件后得到的办理特定 领域问题的能力。
LLM Agent 自主化、智能性仍存在提升空间。从 LLM Agent 的实践看,当前的 LLM Agent 对付实行特定领域的任务已经表示出一定的自主性(如完成科学试验、搜索资料撰写报告 等),LLM 对付固定范式下办理问题能够实现较好的自动化,但在办理问题的泛化能力方面, 当前紧张的 Agent 产品仍间隔通用的 Agent 有一定的差距。紧张表示在:1)任务方案方面: 当前 Agent 紧张基于现有的成熟任务流程进行复现,或基于演习数据对任务进行大略的拆 分;2)工具利用方面:当前 Agent 基本按照人类的支配进行流程化的操作和考试测验,工具的 利用紧张通过调用第三方 API 进行。未来随着底层模型能力的提升。我们认为 AI Agent 有 望在以下方面实现能力提升:1)在任务方案方面从基于规则、参数的方案能力逐步向基于 实践的反思、迭代进化;2)在工具利用与选择方面,从基于人类配置的特定工具,向多种 工具的选择方案进化,乃至更进一步的创造适用于 LLM 的工具。
模型&MaaS 厂商:凭丰富工具&实践履历把握发展机遇MaaS 厂商侧重 2B 业务场景:2B 供应落地工具+2D 供应开拓框架
面向 2B 市场,MaaS 厂商不断完善 Agent 落地工具。大模型厂商与 MaaS 厂商互助,共 同为 B 端客户供应基于大模型的产品,个中大模型厂商推动底层模型的能力升级,MaaS 巨子则凭借良好的产品、客户根本,供应相应的开拓及定制化工具,帮助 B 端客户打造基 于大模型的业务运用。个中较有代表性的厂商为微软、Amazon、Google。我们认为 MaaS 厂商通过云做事实现了根本软件层面的良好卡位,而 AI Agent 在 B 端落地及 D 端开拓的过 程中多须要数据的调用及算力的支撑,MaaS 厂商凭此前的良好卡位实现了业务的延伸,通 过供应落地工具和开拓框架,成为 AI Agent 市场的主要参与者,也有望首先受益于底层大 模型能力打破带来的 AI Agent 发展机遇。
2B:基于业务卡位,供应落地工具
Microsoft Copilot Studio 新增智能 Copilot 功能。在 Microsoft Build 2024 上,微软发布 Microsoft Copilot Studio 新功能,让开发者能根据特界说务和功能,构建主动相应数据和事 件的“智能 Copilot”。基于这类新功能的“智能 Copilot”可通过影象和知识理解高下文、 推理操作和输入,基于用户反馈进行学习,并在不知道如何处理时寻求帮助,从而独立管 理繁芜、长期运行的业务流程。在技能架构上,通过 Instructions(指令)+Triggers(动机) +Knowledge(知识)+Actions(行动)的流程,实现 AI 的自动化运用。此外包括插件和连 接器在内的智能 Copilot 扩展,许可客户通过将其连接到新的数据源和运用程序来增强 Microsoft Copilot 智能副驾驶,从而扩展其功能。此外,智能 Copilot 还可通过反馈不断改 善。微软通过在 2B 定制化工具 Microsoft Copilot Studio 中供应智能 Copilot,实现了 AI 与 事情流的初步结合,打造了垂直场景中 AI 的自动化运用。
在 IT、人力、营销等运用处景下实现 AI+自动化。从设备采购到发卖和做事的客户接待, 用户都可以让基于 Microsoft Copilot Studio 构建的智能副驾驶为其事情。例如:1)IT 帮 助台。IT 支持涉及工单、订单号、批准和库存水平,Copilot 与 IT 做事管理运用程序交互, 根据高下文和影象办理 IT 工单,创建设备更新的采购订单,以及联系经理并得到批准;2) 员工入职。Copilot 会欢迎新员工,阐明人力资源数据,并回答问题。它会向新员工先容伙 伴,供应培训和截止日期,帮忙填写表格,并安排第一周的会议,辅导新员工完成为期数 周的入职和帐户设置流程;3)发卖和做事的私人礼宾做事。可利用与客人之前对话的影象 来记住客人的偏好、进行预订、处理投诉并回答与所供应的产品和做事干系的问题。Copilot 从互动中学习并提出处理客户场景的新方法。
Amazon:通过 Bedrock 供应 Agents 干系功能。在模型个性化方面,借助 Agents for Amazon Bedrock,用户可以通过大略的几个步骤创建和支配完备托管式的 Agent,通过动 态调用 API 来实行繁芜的业务任务。Amazon Bedrock 可以根据用户供应的自然措辞指令, 如“你是专门处理未结理赔的保险代理人”,完成任务所需的 API 架构,并利用来自知识 库的私有数据来源详细信息创建提示语。Agents for Amazon Bedrock 可将用户要求的任务 分解为较小的子任务,Agent 会确定精确的任务顺序,并处理中途涌现的缺点状况。
Amazon Bedrock Agent 与 Amazon 产品产生良好协同。Amazon 在云做事领域具备良好 的产品积累,一方面,Agent 产品与 Amazon 原有根本软硬件产品能够实现良好的协同, 在向量数据存取方面推出 Amazon OpenSearch Serverless 做事,帮助个性化数据与 AI 实 现良好整合、在运用端推动 AI 与 Amazon QuickSight 等运用的结合;另一方面,Agent 工 具与公司本身业务系统能够实现良好的整合。如 Agent 能够和知识库协同事情,从而实现 任务编排、交互式数据网络、任务旅行、调用 API、数据查询、来源归因等任务。通过检索 增强天生,能从用户选择的相应知识库中查找信息,并供应回答。得益于 Amazon 在根本 层的良好根本,Agent 具备较好的可控性,能够实现追踪思维链推理、自定义操作架构,并 在 Agent 调用操作时重新得到掌握权等功能,能够在所选的后端做事中实现业务逻辑。能 够在后台实行耗时的操作(异步实行),同时连续编排流程。
2D:供应开拓框架,卡位开拓者场景
面向 2D 市场,MaaS 厂商供应底层的开拓框架。如微软 AutoGen 框架,支持利用多个代 理来开拓 LLM 运用程序,这些代理可以相互对话来办理任务。AutoGen 代理是可定制的、 可对话的,并且无缝地许可儿类参与。他们可以采取 LLM、人力输入和工具组合的各种模 式运作。AutoGen 可用于定义代理交互行为,开拓职员可以利用自然措辞和打算机代码为 不同的运用程序编写灵巧的对话模式。通过自动化多个措辞模型代理之间的谈天,开拓人 员可以轻松地让他们自主或根据人工反馈共同实行任务,包括须要通过代码利用工具的任 务。 AutoGen 供应多代理会话框架作为高等抽象,利用此框架可以方便地构建大措辞模型 事情流程。同时,AutoGen 还供应一系列事情系统,涵盖了来自各个领域的广泛运用,包 括自动翻译、自动择要、智能建议等。 AutoGen 还支持增强型大措辞模型推理 API,可用 于提高推理性能并降落本钱。
模型厂商落地:GPTs 通过配置实现定制化,打造 LLM 垂直领域助手
三大功能打造定制 GPT。GPTs 是为特定目的创建的 ChatGPT 的自定义版本,由 OpenAI 于 2023 年 11 月推出。在构建办法上,GPTs 通过供应 Instructions、Expanded knowledge、 Actions 三大能力,优化运用的个性化、垂直化、领悟化能力。1)Instructions:用户可在 Configure 界面手动补充希望 GPT 运用实现的个性化能力;2)Expanded knowledge:用 户可在 Configure 界面上传额外的文件作为运用的知识参考,打造符合垂直场景、具备专业 知识的垂类运用;3)Actions:用户可额外添加 ChatGPT 与其它运用程序的连接,进一步 实现模态领悟与运用领悟。此外在配置选项卡中还可以进行自定义操作,即可以通过供应 有关端点、参数的详细信息以及模型应如何利用它的描述,实现对第三方 API 的调用。
GPTs 具备垂直化、多模态、开放性特点。OpenAI 官方推出 16 个 GPTs 运用,涵盖事情、 学习、生活、体验四大运用处景。配置了特定的文件后 GPTs 能力边界得到拓展,可用于 为利用者供应棋盘游戏先容、数学题辅导等,载入多模态模块后的 GPTs,能够天生贴纸、 绘本等图片。第三方 GPTs 则包括事情助手、学习助手、生活助手、意见意义工具等。从落地 产品特点上,我们认为 GPTs 具备垂直化、多模态、开放性的特点。垂直化指运用多基于 垂直场景的知识根本(特定 IP、特定领域知识等);多模态指运用结合了文本、图像、音频、 视频等多种模态,供应了丰富的呈现办法;开放性指在运用的开拓上门槛较低,用户可通 过大略的配置实现特定领域 GPTs 的开拓。
运用厂商:具备垂直数据与工程化上风,关注事情流卡位
与事情流结合,推动 Agent 落地——以 Servicenow 为例
Servicenow:具备覆盖多个事情流的业务根本。ServiceNow 紧张产品 now 平台。公司基 于统一的 Now 平台为客户供应事情流的自动化和数字化办理方案。个中技能事情流 (Technology)包括 IT 做事管理、IT 运营管理、IT 资产管理、安全运营、集成风险管理、 计策投资组合管理、ServiceNow 云可不雅观测性等。客户和行业(Customer and Industry)及 员工事情流(Employee)包括客户做事管理、现场做事管理、人力资源做事交付、事情场 所做事交付、法律做事交付等。创建者事情流(Creator)和其他包括运用程序引擎、自动 化引擎、平台根本、源到支付操作等。Now 平台实现了对客户多领域事情流的覆盖,为 Agent 的落地打下了良好的根本。
Now assist:AI 主要运用,场景不断扩展。23Q3 公司在 Now 平台中加入了 Now Assist (AI 助手)功能,发布 Now Assist for Search(从客户环境中提取信息,实现加强搜索, 精准回答)等产品。Now 平台的更新便于客户在事情流中集成 AI 能力,干系功能在 ITSM、 HR、客户做事和 Creator 四条产品线中投入利用。23Q4 公司发布新功能 Now Assist in Virtual Agent,该产品通过高等对话式 AI 谈天加快了问题办理速率;Now Assist for Field Service Management 通过帮助技能职员在首次访问中完成事情、识别必要的设备、供应维 建筑议并自动快速跟进,降落本钱。
结合行业方案,打造 Agent 深入运用。ServiceNow 推出针对电信行业的天生式 AI 办理方 案 Now Assist for Telecommunications Service Management(TSM),它基于 Now 平台构 建。在产品特性上,TSM 具备如下特色:1)供应主动体验。快速识别并办理问题。为客户 供应自助做事工具,让他们自行学习、进行变动和解决问题。2)自动办理问题。让客户了 解当前的中断以及如何办理这些中断。3)利用 AIOps 和机器学习自动化和优化运营事情流, 以提高全体组织的效率并降落本钱。我们认为深化行业运用有助于 Agent 在垂直领域打造 标杆运用。未来企业的事情流或以 gen AI 为核心进行设计,随着实时数据打通、系统集成 度进一步提升,自然措辞或在部分场景中取代代码成为新的业务流程构建办法。
基于私有数据,打造智能运用——以 Salesforce 为例
基于私有数据,打造垂直领域智能运用。除了在原有系统中的事情流根本,垂直业务数据 也是运用厂商打造 Agent 运用的主要上风。以 Salesforce 为例,其在营销发卖等领域具备 较好的业务数据根本。基于此公司打造了适用于 CRM 的对话式 AI,特色因此客户的公司 数据为根本。从产品布局看,2023 年 3 月公司发布 AI 运用 Einstein GPT,首次将天生式 AI 运用到客户关系管理领域;2023 年 9 月发布 Einstein 1 平台(核心包括 AI 助手 Einstein Copilot),并与新的 Data Cloud 原生集成,客户可以通过 Data Cloud 和 Tableau 吸收、协 调和探索数据,将数据的力量扩展到每个业务领域,为 AI 运用打造了良好的数据根本。
通过扩展设置将 AI 嵌入事情流中。Einstein Copilot 可以通过扩展与原有事情流结合,可通 过创建调用流程、Apex 代码、提示和 MuleSoft API 的自定义操作来扩展 AI 助手的功能, 为 Copilot 供应精确的指示,以无缝实行任务并快速完成事情。详细包括:1)对话:向 AI 助手提问并给出指示。得到清晰、可信且可操作的答复;2)操作:利用现成的操作查询并 汇总 Salesforce 中的记录。根据独特的业务需求创建自定义操作,提取干系数据;3)方案 师:天生并实行基于来自 CRM、数据云或外部来源的业务数据的一组辅导性操作;4)分 析:利用全面的仪表板监控和改进 Copilot,以得到诸如采取率、参与度和行动可用性等关 键绩效指标。
终端厂商:推动人机交互升级,率先实现 Agent 落地AI+终端:结合安全性+个性化,为 Agent 落地打下良好根本。垂直数据有助于 Agent 形成 个性化的能力,AI 支配于终端有助于实现个性化和安全性的良好结合。以 AIPC 为例,通 过 AI 能力确当地化支配,使 PC 拥有持续学习能力、供应个性化并保护用户隐私的做事、 配备知识库适应用户需求以及可自然交互。AIPC 能够根据用户利用习气、行为和喜好进行 自适应和优化为用户在操作过程中供应更多的个性化建媾和支持。AIPC 在终端侧进走运算, 能够供应更多的情境信息,如用户的移动状态、个人偏好和设备上的多媒体信息。基于终 真个本地数据,Agent 能够供应更加个性化的做事,本地处理也有助于保障数据的安全性, 综上,我们认为终端 AI 能力的加强有利于 Agent 落地加速。
智好手机:Siri 为 Apple Intelligence 主要交互入口。在智好手机领域,语音交互助手为 AI 主要的人机交互入口,有望成为 Agent 落地 C 真个主要场景。据 Apple WWDC,Siri 用 户每天发出的语音要求数量高达 15 亿次。在 Apple Intelligence 的支持下,更加智能和自 然,并且除了语音,也加入了笔墨交互能力。1)Siri 目前具有更好的措辞理解能力,纵然 表述不清或者多次表述,Siri 也能识别用户意图。2)Siri 也能做“视觉推理”,Apple 称之 为“屏幕感知”,可以理解屏幕上的内容并对其采纳行动。3)Siri 能在保障隐私情况下,利 用用户设备上信息的理解来帮助找到正在探求的内容,如短信、邮件。4)在运用程序内和 跨运用程序无缝地实行操作。例如美化照片后,将照片放到备忘录的某条记事中。未来随 着 Siri 逐步接入多步骤任务处理等功能,有望推动智好手机端 Agent 的落地。
端侧模型发展有助于 Agent 落地终端。以 Apple Intelligence 为例,个中根本模型进行各种 下贱任务微调,得到适宜不同下贱任务的一组独立模型;通过 Adapter 微调方法,得到模 型权重的小凑集,叠加在公共根本模型上,让根本模型能够选择须要的能力;末了通过压 缩模型到适宜端侧的大小,利用优化算法加速推理,实现在端侧落地。比拟 Agent 的技能 架构,每每也须要根本模型和小模型的共同支撑,我们认为端侧模型技能的发展(模型压 缩等技能)有助于 Agent 落地于终端。
总结:从 AI Agent 有望逐步通向 AGI根本模型能力提升+事情流接入有望加快 AI Agent 商业化。从 Agent 的发展看,人类在逐 步强化程序的自动化、智能化程度。在 AI Agent 的考试测验中,运用厂商结合深度学习等算法、 知识图谱、RPA 等技能实现了部分的自动化,其核心是在存量知识的根本上,实现由程序 自主办理部分问题。LLM 的涌现是这一框架下的主冲要破,LLM 通过预演习接管知识,以 大量参数存储知识,通过 Transformer 的把稳力机制,实现了对存量知识接管理解效率的进 一步提升。在办理问题的过程中,相较于传统的 RPA 等基于规则的自动化办法,表示出了 更强的灵巧性。我们认为随着根本模型能力的进一步提升,AI Agent 在任务方案中的灵巧 性、在知识接管利用的效率方面的上限或将进一步提升。在当前的根本模型能力下,若将 AI Agent 与事情流进一步结合,在事情流程中嵌入 AI Agent 实现部分问题的智能+自动化解 决,AI Agent 实用性或将进一步改进,商业化或进一步加速。
从 LLM 到 AI Agent 到 AGI。据《On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence》(2022),智能的原则包括简约性、自洽性。个中简约性要 求哀求系统通过打算有效的办法来得到紧凑和构造化的表示,自洽性哀求自主智能系统通 过最小化被不雅观察者和再生者之间的内部差异来寻求最自洽的模型来不雅观察外部天下。我们认 为 LLM 以黑盒的办法实现了知识的高效接管,通过人类对齐实现了自洽性;基于 LLM 的 AI Agent 在 LLM 根本上能够通过事情流办法引入人类对齐实现自洽,通过垂直数据强化特 定领域的知识能力;而随着知识压缩的效率的进一步提升(Scaling Laws 或白盒大模型等 办法),打造闭环系统完成对知识的验证,未来有望逐步实现 AGI。
(本文仅供参考,不代表我们的任何投资建议。如需利用干系信息,请参阅报告原文。)
精选报告来源:【未来智库】。未来智库 - 官方网站
本文系作者个人观点,不代表本站立场,转载请注明出处!