人类勾引探索(Human Guided Exploration,HuGE)使人工智能代理能够在人类的帮助下快速学习,纵然人类犯了缺点。

AI新打破“HuGE”:在机械人演习中运用众包反馈 让人类引导其探索_年夜众_机械人 智能写作

为了教会人工智能代理一项新任务,例如如何打开厨柜,研究职员常日会利用强化学习(reinforcement learning)--一种试错过程,在这个过程中,如果代理采纳的行动使其更靠近目标,就会得到褒奖。

在许多情形下,人类专家必须精心设计一个褒奖函数,这是一种勉励机制,可以引发代理进行探索。
当代理探索并考试测验不同的行动时,人类专家必须反复更新褒奖函数。
这可能会耗费大量韶光,效率低下,而且难以扩大规模,尤其是当任务繁芜且涉及许多步骤时更是如此。

麻省理工学院、哈佛大学和华盛顿大学的研究职员开拓了一种新的强化学习方法,它不依赖于专家设计的褒奖函数。
相反,它利用从许多非专业用户那里网络到的众包反馈,来辅导代理学习如何达到目标。

虽然其他一些方法也试取利用非专家反馈,但这种新方法能让人工智能代理学习得更快,只管从用户那里网络的数据每每充满缺点。
这些喧华的数据可能会导致其他方法失落败。

此外,这种新方法许可异步网络反馈,因此天下各地的非专业用户都能为人工智能代理的传授教化做出贡献。

\"大众HuGE\"大众: 新颖的方法

\公众如今,设计机器人代理最耗时、最具寻衅性的部分之一便是设计褒奖功能。
如今,褒奖函数是由专家研究职员设计的--如果我们想教机器人完成许多不同的任务,这种模式是无法扩展的。
\"大众麻省理工学院电子工程与打算机科学系(EECS)助理教授、麻省理工学院打算机科学与人工智能实验室(CSAIL)Improbable AI实验室卖力人普尔基特-阿格拉瓦(Pulkit Agrawal)说:\"大众我们的事情提出了一种通过众包褒奖函数设计和让非专家供应有用反馈来扩展机器人学习的方法。
\"大众

未来,这种方法可以帮助机器人快速学会在用户家中实行特界说务,而主人无需向机器人展示每项任务的物理示例。
机器人可以在非专业职员的众包反馈辅导下自行探索。

\公众在我们的方法中,褒奖功能勾引代理探索什么,而不是见告它该当做什么才能完成任务。
因此,纵然人类的监督有些不准确和喧华,代理仍旧能够进行探索,这有助于它更好地学习,\公众第一作者、Improbable AI 实验室研究助理马塞尔-托尔内(Marcel Torne '23)阐明说。

与托尔内共同完成该论文的还有他的麻省理工学院导师阿格拉沃尔、资深作者、华盛顿大学助理教授阿比舍克-古普塔(Abhishek Gupta)以及华盛顿大学和麻省理工学院的其他研究职员。
这项研究将不才个月举行的神经信息处理系统会议上揭橥。

反馈机制和学习过程

为强化学习网络用户反馈的一种方法是,向用户展示两张代理达到的状态照片,然后讯问用户哪种状态更靠近目标。
例如,机器人的目标可能是打开一个厨房橱柜。
个中一张照片可能显示机器人打开了橱柜,而第二张照片可能显示机器人打开了微波炉。
用户会选择\"大众更好\公众状态的照片。

以前的一些方法试取利用这种众包的二元反馈来优化褒奖函数,让机器人利用褒奖函数来学习任务。
然而,由于非专家很可能会犯缺点,褒奖函数可能会变得非常喧华,因此代理可能会陷入困境,永久无法达到目标。

\"大众基本上,代理会把褒奖函数看得太重。
它会试图完美地匹配褒奖函数。
因此,我们不直接对褒奖函数进行优化,而是用它来见告机器人该当探索哪些区域,\"大众托恩说。

他和他的互助者将这一过程分解成两个独立的部分,每个部分都由各自的算法辅导。
他们将新的强化学习方法称为 HuGE(人类勾引探索)。

一方面,目标选择器算法会根据众包的人类反馈不断更新。
这些反馈不是作为褒奖函数,而是用来辅导代理的探索。
从某种意义上说,非专业用户投放的面包屑会逐步勾引代理朝着目标提高。

另一方面,代理在目标选择器的辅导下,以自我监督的办法进行探索。
它网络自己考试测验过的动作的图像或***,然后发送给人类,用于更新目标选择器。

这就缩小了代理的探索范围,将其引向更有希望、更靠近目标的区域。
但是,如果没有反馈,或者反馈须要一段韶光才能到达,那么代理就会连续自学,只管速率会慢一些。
这样,就可以不频繁地、异步地网络反馈信息。

\"大众探索环路可以自主地连续提高,由于它只是去探索和学习新的东西。
当你得到更好的旗子暗记时,它就会以更详细的办法进行探索,然后就可以让它们按照自己的节奏迁徙改变。
\"大众

由于反馈只是温和地勾引代理的行为,即利用户供应了缺点的答案,它终极也能学会完成任务。

更快的学习

研究职员在一些仿照任务和实际任务中测试了这种方法。
在仿照任务中,他们利用 HuGE 有效地学习了具有较长操作序列的任务,例如按照特定顺序堆叠积木或在大型迷宫中导航。

在真实天下的测试中,他们利用HuGE演习机器臂绘制字母\"大众U\公众,以及取放物品。
在这些测试中,他们从横跨三大洲 13 个不同国家的 109 位非专家用户那里得到了众包数据。

在实际测试中,研究职员利用 HuGE 演习机器臂拾取和放置物体以及画出字母\公众U\"大众。
他们从横跨三大洲 13 个不同国家的 109 位非专家用户那里得到了众包数据。
图片来源:研究职员供应

在真实天下和仿照实验中,HuGE 比其他方法更快地帮助机器人学会实现目标。

研究职员还创造,与研究职员制作和标注的合成数据比较,从非专家那里众包的数据性能更好。
对付非专业用户来说,标注 30 张图片或***所需的韶光不到两分钟。

托尔内补充说:\"大众这使得我们很有希望扩大这种方法的运用范围。
\公众

在最近举行的机器人学习大会上,研究职员揭橥了一篇干系论文,他们对 HuGE 进行了改进,使人工智能代理能够学会实行任务,然后自主重置环境连续学习。
例如,如果代理学会了打开橱柜,该方法也会勾引代理关闭橱柜。

他说:\"大众现在,我们可以让它完备自主地学习,而不须要人工重置。
\公众研究职员还强调,在这种学习方法和其他学习方法中,确保人工智能代理与人类代价不雅观保持同等至关主要。

未来,他们希望连续改进 HuGE,使人工智能代理能够从其他形式的互换中学习,如自然措辞和与机器人的身体互动。
他们还有兴趣将这种方法用于同时教授多个代理。