全球首篇!调研近400篇文献鹏城实验室\u0026中大年夜深度解析具身智能_智能_机械人
具身智能是实现通用人工智能的必经之路,其核心是通过智能体与数字空间和物理天下的交互来完成繁芜任务。近年来,多模态大模型和机器人技能得到了长足发展,具身智能成为环球科技和家当竞争的新焦点。然而,目前短缺一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多智能体与具身智能研究所联合中山大学 HCP 实验室的研究职员,对具身智能的最新进展进行了全面解析,推出了多模态大模型时期的环球首篇具身智能综述。
该综述调研了近 400 篇文献,从多个维度对具身智能的研究进行了全面解析。该综述首先先容了一些具有代表性的具身机器人和具身仿真平台,深入剖析了其研究重点和局限性。接着,透彻解析了四个紧张研究内容:1) 具身感知,2) 具身交互,3) 具身智能体和 4) 虚拟到现实的迁移,这些研究内容涵盖了最前辈的方法、基本范式和全面的数据集。此外,该综述还磋商了数字空间和物理天下中具身智能体面临的寻衅,强调其在动态数字和物理环境中主动交互的主要性。末了,该综述总结了具身智能的寻衅和局限,并谈论了其未来的潜在方向。本综述希望能够为具身智能研究供应根本性参考,并推动干系技能创新。此外,该综述还在 Github 发布了具身智能 paper list,干系的论文和代码仓库将持续更新,欢迎关注。
论文地址: https://arxiv.org/pdf/2407.06886
具身智能 Paper List: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List
1. 具身智能的前世今生
具身智能的观点最初由艾伦・图灵在 1950 年建立的具身图灵测试中提出,旨在确定智能体是否能显示出不仅限于办理虚拟环境(数字空间)中抽象问题的智能(智能体是具身智能的根本,存在于数字空间和物理天下中,并以各种实体的形式具象化,这些实体不仅包括机器人,还包括其他设备。),还能应对物理天下的繁芜性和不可预测性。因此,具身智能的发展被视为一条实现通用人工智能的基本路子。深入磋商具身智能的繁芜性、评估其当前的发展现状并思考其未来的发展轨迹显得尤为主要。如今,具身智能涵盖了打算机视觉、自然措辞处理和机器人技能等多个关键技能,个中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中,具身智能体必须充分理解措辞指令中的人类意图,积极主动探索周围环境,全面感知来自虚拟和物理环境的多模态元素,并实行适当的操作以完成繁芜任务。多模态模型的快速进展展示了在繁芜环境中相较于传统深度强化学习方法更强的多样性、灵巧性和泛化能力。最前辈的视觉编码器预演习的视觉表示供应了对物体种别、姿态和几何形状的精确估计,使具身模型能够全面感知繁芜和动态的环境。强大的大措辞模型使机器人更好地理解人类的措辞指令并为具身机器人对齐视觉和措辞表示供应了可行的方法。天下模型展示了显著的仿照能力和对物理定律的良好理解,使具身模型能够全面理解物理和真实环境。这些进展使具身智能体能够全面感知繁芜环境,自然地与人类互动,并可靠地实行任务。下图展示了具身智能体的范例架构。
具身智能体框架
在本综述中,我们对具身智能确当提高展进行了全面概述,包括:(1)具身机器人 —— 具身智能在物理天下中的硬件方案;(2)具身仿真平台 —— 高效且安全地演习具身智能体的数字空间;(3)具身感知 —— 主动感知 3D 空间并综合多种感官模态;(4)具身交互 —— 有效合理地与环境进行交互乃至改变环境以完成指界说务;(5)具身智能体 —— 利用多模态大模型理解抽象指令并将其拆分为一系列子任务再逐步完成;(6)虚拟到现实的迁移 —— 将数字空间中学习到的技能迁移泛化到物理天下中。下图展示了具身智能从数字空间到物理天下所涵盖的体系框架。本综述旨在供应具身智能的全面背景知识、研究趋势和技能见地。
本综述整体架构
2. 具身机器人
具身智能体积极与物理环境互动,涵盖了广泛的详细态态,包括机器人、智能家电、智能眼镜和自动驾驶车辆等。个中,机器人作为最突出的详细态态之一,备受关注。根据不同的运用处景,机器人被设计成各种形式,以充分利用其硬件特性来完成特界说务。如下图所示,具身机器人一样平常可分为:(1)固定基座型机器人,如机器臂,常运用在实验室自动化合成、教诲、工业等领域中;(2)轮式机器人,因高效的机动性而有名,广泛运用于物流、仓储和安全检讨;(3)履带机器人,具有强大的越野能力和机动性,在农业、建筑和灾害场景的应对方面显示出潜力;(4)四足机器人,以其稳定性温柔应性而有名,非常适宜繁芜地形的探测、接济任务和军事运用。(5)人形机器人,以其机动手为关键,在做事业、医疗保健和协作环境等领域广泛运用。(6)仿活气器人,通过仿照自然生物的有效运动和功能,在繁芜和动态的环境中实行任务。
不同形态的具身机器人
3. 具身智能仿真平台
具身智能仿真平台对付具身智能至关主要,由于它们供应了本钱效益高的实验手段,能够通过仿照潜在的危险场景来确保安全,具有在多样环境中进行测试的可扩展性,具备快速原型设计能力,能够为更广泛的研究群体供应便利,供应用于精确研究的可控环境,天生用于演习和评估的数据,并供应算法比较的标准化基准。为了使智能体能够与环境互动,必须构建一个逼真的仿照环境。这须要考虑环境的物理特性、工具的属性及其相互浸染。如下图所示,本综述将对两种仿真平台进行剖析:基于底层仿真的通用平台和基于真实场景的仿真平台。
通用仿真平台
基于真实场景的仿真平台
4. 具身感知
未来视觉感知的 “北极星” 因此具身为中央的视觉推理和社会智能。如下图所示,不同于仅仅识别图像中的物体,具有具身感知能力的智能体必须在物理天下中移动并与环境互动,这须要对三维空间和动态环境有更透彻的理解。具身感知须要具备视觉感知和推理能力,理解场景中的三维关系,并基于视觉信息预测和实行繁芜任务。该综述从主动视觉感知、3D 视觉定位、视觉措辞导航、非视觉感知(触觉传感器)等方面进行先容。
主动视觉感知框架
5. 具身交互
具身交互指的是智能体在物理或仿照空间中与人类和环境互动的场景。范例的具身交互任务包括具身问答和具身抓取。如下图所示,在具身问答任务中,智能体须要从第一人称视角探索环境,以网络回答问题所需的信息。具有自主探索和决策能力的智能体不仅要考虑采纳哪些行动来探索环境,还需决定何时停滞探索以回答问题,如下图所示。
具身问答框架
除了与人类进行问答交互外,具身交互还涉及基于人类指令实行操作,例如抓取和放置物体,从而完成智能体、人类和物体之间的交互。如图所示,具身抓取须要全面的语义理解、场景感知、决策和稳健的掌握方案。具身抓取方法将传统的机器人运动学抓取与大型模型(如大措辞模型和视觉措辞根本模型)相结合,使智能体能够在多感官感知下实行抓取任务,包括视觉主动感知、措辞理解和推理。
措辞勾引的交互式抓取框架
6. 具身智能体
智能体被定义为能够感知环境并采纳行动以实现特定目标的自主实体。多模态大模型的最新进展进一步扩大了智能体在实际场景中的运用。当这些基于多模态大模型的智能体被具身化为物理实体时,它们能够有效地将其能力从虚拟空间转移到物理天下,从而成为具身智能体。为了使具身智能体在信息丰富且繁芜的现实天下中运行,它们已经被开拓出强大的多模态感知、交互和方案能力。如下图所示,为了完成任务,具身智能体常日涉及以下过程:
(1)将抽象而繁芜的任务分解为详细的子任务,即高层次的具身任务方案。
(2)通过有效利用具身感知和具身交互模型,或利用根本模型的策略功能,逐步履行这些子任务,这被称为低层次的具身行动方案。
值得把稳的是,任务方案涉及在行动提高行思考,因此常日在数字空间中考虑。比较之下,行动方案必须考虑与环境的有效互动,并将这些信息反馈给任务方案器以调度任务方案。因此,对付具身智能体来说,将其能力从数字空间对齐并推广到物理天下至关主要。
基于多模态大模型的具身智能体框架
7. 虚拟到现实的迁移
具身智能中的虚拟到现实的迁移(Sim-to-Real adaptation)指的是将仿照环境(数字空间)中学习到的能力或行为转移到现实天下(物理天下)中的过程。该过程包括验证和改进在仿真中开拓的算法、模型和掌握策略的有效性,以确保它们在物理环境中表现得稳定可靠。为了实现仿真到现实的适应,具出生界模型、数据网络与演习方法以及具身掌握算法是三个关键要素,下图展示了五种不同的 Sim-to-Real 范式。
五种虚拟到现实的迁移方案
8. 寻衅与未来发展方向
只管具身智能发展迅速,但它面临着一些寻衅,并呈现出令人愉快的未来方向:
(1)高质量机器人数据集。获取足够的真实天下机器人数据仍旧是一个重大寻衅。网络这些数据既耗时又耗费资源。纯挚依赖仿照数据会加剧仿真到现实的差距问题。创建多样化的真实天下机器人数据集须要各个机构之间紧密且广泛的互助。此外,开拓更真实和高效的仿照器对付提高仿照数据的质量至关主要。为了构建能够在机器人领域实现跨场景和跨任务运用的通用具身模型,必须构建大规模数据集,利用高质量的仿照环境数据来赞助真实天下的数据。
(2)人类示范数据的有效利用。高效利用人类演示数据包括利用人类展示的动作和行为来演习和改进机器人系统。这个过程包括网络、处理和从大规模、高质量的数据集中学习,个中人类实行机器人须要学习的任务。因此,主要的是有效利用大量非构造化、多标签和多模态的人类演示数据结合动作标签数据来演习具身模型,使其能够在相对较短的韶光内学习各种任务。通过高效利用人类演示数据,机器人系统可以实现更高水平的性能温柔应性,使其更能在动态环境中实行繁芜任务。
(3)繁芜环境认知。繁芜环境认知是指具身智能体在物理或虚拟环境中感知、理解和导航繁芜现实天下环境的能力。对付非构造化的开放环境,目前的事情常日依赖预演习的 LLM 的任务分解机制,利用广泛的知识知识进行大略任务方案,但缺少详细场景理解。增强知识转移和在繁芜环境中的泛化能力是至关主要的。一个真正多功能的机器人系统该当能够理解并实行自然措辞指令,超过各种不同和未见过的场景。这须要开拓适应性强且可扩展的具身智能体架构。
(4)长程任务实行。实行单个指令常日涉及机器人实行长程任务,例如 “打扫厨房” 这样的命令,包含重新排列物品、扫地、擦桌子等活动。成功完成这些任务须要机器人能够方案并实行一系列低级别动作,且持续较永劫光。只管当前的高等任务方案器已显示出初步的成功,但由于缺少对具身任务的调度,它们在多样化场景中每每显得不敷。办理这一寻衅须要开拓具备强大感知能力和大量知识知识的高效方案器。
(5)因果关系创造。现有的数据驱动的具身智能体基于数据内部的干系性做出决策。然而,这种建模方法无法使模型真正理解知识、行为和环境之间的因果关系,导致策略存在偏差。这使得它们难以在现实天下环境中以可阐明、稳健和可靠的办法运行。因此,具身智能体须要以天下知识为驱动,具备自主的因果推理能力。
(6)持续学习。在机器人运用中,持续学习对付在多样化环境中支配机器人学习策略至关主要,但这一领域仍未被充分探索。虽然一些最新研究已做生意量了持续学习的子主题,如增量学习、快速运动适应和人机互动学习,但这些办理方案常日针对单一任务或平台设计,尚未考虑根本模型。开放的研究问题和可行的方法包括:1) 在最新数据上进行微调时稠浊不同比例的先前数据分布,以缓解灾害性遗忘,2) 从先前分布或课程中开拓有效的原型,用于新任务的推理学习,3) 提高在线学习算法的演习稳定性和样本效率,4) 确定将大容量模型无缝集成到掌握框架中的原则性方法,可能通过分层学习或慢 - 快掌握,实现实时推理。
(7)统一评估基准。只管有许多基准用于评估低级掌握策略,但它们在评估技能方面常常存在显著差异。此外,这些基准中包含的物体和场景常日受到仿照器限定。为了全面评估具身模型,须要利用逼真的仿照器涵盖多种技能的基准。在高等任务方案方面,许多基准通过问答任务评估量划能力。然而,更空想的方法是综合评估高等任务方案器和低级掌握策略的实行能力,特殊是在实行永劫光任务和衡量成功率方面,而不仅仅依赖于对方案器的单独评估。这种综合方法能够更全面地评估具身智能系统的能力。
总之,具身智能使智能体能够感知、认知并与数字空间和物理天下中的各种物体互动,显示了其在实现通用人工智能方面的主要意义。本综述全面回顾了具身机器人、具身仿真平台、具身感知、具身交互、具身智能体、虚拟到现实的机器人掌握以及未来的研究方向,这对沿着促进具身智能的发展具有主要意义。
关于鹏城实验室多智能体与具身智能研究所
从属鹏城实验室的多智能体与具身智能研究所汇聚了数十名智能科学与机器人领域顶尖青年科学家,依托鹏城云脑、中国算力网等自主可控 AI 根本举动步伐,致力于打造多智能体协同与仿真演习平台、云端协同具身多模态大模型等通用根本平台,赋能工业互联网、社会管理与做事等重大运用需求。
本文系作者个人观点,不代表本站立场,转载请注明出处!