一出,网友们纷纭表示:这难道是长了4条腿的MacBook?

机械狗开天眼了?苹果电脑芯片+加州大年夜学AI算法你学废了吗_机械_体积 智能助手

不丢脸出,这只狗可以轻轻松松的超越面前的树干。

狗背上的那个白盒子,便是MacBook拆下来的处理器——里面搭载的是苹果的M1芯片,运行着加州大学的最新研究—— 一种全新的神经体积影象架构(NVM)。

利用这项技能,机器狗学会了感知三维天下,能够通过单一的神经网络实现爬楼梯、跨缝隙、翻障碍等等——完备自主,无需遥控。

▍构建连贯3D场景,办理长期难题

长久以来,机器狗在征服繁芜地形的道路上一贯是困难重重,传统的方法是基于模型来掌握机器人的行动,但是每每无法适应真实天下中的未知环境。

近年来,一些学者开始利用无模型的强化学习方法来演习机器人掌握器,可以在仿照环境中演习,然后将学到的策略直接应用到真实机器人上; 但是这种“盲目”的掌握器无法感知周围环境,即便加入视觉反馈,也无法在繁芜的地形中看到所有的障碍。

要想让机器狗看清更多的障碍物,就须要将它的多个视角组成一个连贯的场景,然而在机器狗的运动过程中,安装在其头部上的摄像机会发生剧烈和溘然的位置变革。

为了把这些变革连贯起来,将某单个帧放到精确的位置,就显得非常主要了。

▍AI视觉算法给机器狗开“天眼”?还能自监督学习

研究职员提出的神经体积影象(NVM)架构,便是来办理这个问题的。
机器人须要从先前的帧中网络信息,并精确推断被遮挡的地形。

详细包括以下几步:

1.通过一个3D编码器在摄像头获取的2D图像中提取3D信息,并转换为3D特色体积;

2.再对“当前帧”和“前几帧”的信息进行比较,估计个中的3D变换,这些信息包括:机器狗腿部的枢纽关头角度、枢纽关头速率、与地面的间隔等;

3.将“前几帧”的特色体积转换到“当前帧”的坐标系中;并把它们领悟在一起,就得到周围3D构造的神经体积影象;

机器狗可以利用当前帧来合成先前的帧。
当它移动时,NVM会根据相机已捕获的帧检讨合成帧。
如果它们匹配得很好,那么NVM就知道它已经学会了 3D 场景的精确表示。
否则,它会进行改动,直到精确为止。

除此之外,它还能通过 ⌈自监督学习⌋ 来演习神经体积影象,研究团队演习了一个独立的解码器,能够不雅观察和两个帧之间的预估转换,从而预测后续的图像。

这样一来,通过综合过去的视觉信息,机器狗就能够记住它所看到的内容以及它的腿之前采纳的动作,并利用该影象来关照它的下一步动作。

解码器的视觉重修

如上图,第一幅图显示机器人在环境中移动,第二幅图是输入的视觉不雅观察结果,第三幅图是利用3D特色体积和预估画面合成的视觉不雅观察效果。

对付输入的视觉不雅观察,研究团队对图像运用了大量的数据增强来提高模型的鲁棒性。

▍走进现实天下后表现如何?

那么在现实天下中,机器狗的表现如何呢?研究职员在室内和室外环境中都进行了测试。

先来个最难的踩矩阵:

利用此前的识别掌握技能,小狗直接踩空了,狗头着地:

利用NVM技能后,小狗可以稳稳地走过矩阵:

超过沟壑,采取之前的技能,小狗后腿对间隔判断明显涌现了偏差,直接摔了个四仰八叉:

利用NVM技能后,安安稳稳通过:

爬楼梯:

走石子路也很顺畅:

创造有障碍物溘然涌如今自己面前时,直接就会选择绕开:

▍开拓者先容

这项研究由加州大学圣地亚哥分校、人工智能与根本交互研究所、麻省理工学院打算机科学与技能学院的研究职员互助完成,文章标题为“Neural Volumetric Memory for Visual Locomotion Control”。

文章的第一作者为Ruihan Yang,2019年本科毕业于南开大学,目前在加州大学圣地亚哥分校读博士生二年级,导师为Xiaolong Wang教授。

他的导师是Xiaolong Wang教授,也是该研究的通讯及第一作者,目前是加州大学圣地亚哥分校的一名助理教授。
他在卡内基梅隆大学得到了机器人学的博士学位,并曾在加州大学伯克利分校做博士后研究。