【新智元导读】人类不仅可以通过眼睛“看清”周围环境中的东西,还能“识别并理解”这些东西,对这些东西形成“认知和决策”。
现在,研究职员正努力让AI也做到这一点。
北京大学博雅特聘教授、前沿打算研究中央实行主任陈宝权的这篇精彩演讲,对当前海内三维视觉智能领域研究概况、技能运用方向和未来前景做了精彩剖析。

AI+三维视觉让机械人具备决定筹划和实行力_视觉_机械人 智能助手

众所周知,人工智能是仿照人类智能的技能,实现对人类智能的完备再现,是人工智能的终极目标。
而人类智能是从人类的感官和认知开始的。
以是,人类的感官每每成为研究人工智能的入手点,比如视觉。

对付人类而言,不仅可以通过眼睛“看清”周围环境中的东西,还能“识别并理解”这些东西,对这些东西形成“认知和决策”。
现在,越来越多的AI领域的研究职员正努力让AI同样做到这一点。
从人类的三维视觉出发,三维视觉智能已成为人工智能研究和运用的热门领域。

在今年3月27日新智元举办的“智能云·新天下”AI技能峰会上,北京大学博雅特聘教授、前沿打算研究中央实行主任陈宝权揭橥了题为《三维视觉智能及运用》的演讲,从研究职员的视角,对当前海内三维视觉智能领域研究概况、技能运用方向和未来前景做了精彩的剖析。

以下为新智元整理的演讲内容:

北京大学博雅特聘教授、前沿打算研究中央实行主任陈宝权

本日很高兴有机会能够在这里揭橥演讲!
今天下午的讲者紧张来自于企业,我就从学术研究的角度,对现在非常盛行的人工智能技能的主要分支——视觉智能来做下先容。

说到视觉智能,大家都不陌生,人工智能的很多技能是基于人的各种感不雅观的,个中视觉感不雅观就是非常主要的一环。
在视觉智能方面的很多技能已经在工业界得到非常好的运用。
随着运用的深入,越来越多的视觉智能技能进入“三维视觉智能”阶段。
也便是说,我们的眼睛不仅要看清某个东西,认识某个东西,还要走到这个场景里面去,在三维天下里真实地感想熏染场景,犹如身临其境。

这就须要具有三维空间感知与认知能力的智能,即三维视觉智能。
任何一个新的研究方向的涌现都不是凭空而来,而是和许多其他学科交叉而来的。
三维视觉智能的研究便是凑集打算机图形学、打算机视觉等领域的技能与传统的人工智能、学习、大数据等很好地交叉领悟。

三维视觉技能的发展得益于视觉传感器的快速发展,已经在推动很多运用,比较有代表性的包括无人车、机器人,以及娱乐、影视等其它领域的运用。

三维视觉研究什么?总结起来有几大紧张方向:

首先是三维感知,也便是感知三维空间,获取和处理三维深度等;然后是位置感知,比如感知相机的位置等;第三是三维建模,不仅对场景有基本的深度感知,还要得到关于场景完全几何模型的描述。
最主要的便是三维理解,对场景和个中的物体从三维空间来进行理解。

三维视觉的发展得益于视觉传感器的发展,而传感器大致可以分为两类,一类是被动传感器,现在我们用的各种相机便是被动传感器。
另一类便是主动传感器,比如激光扫描,以及各种以主动发射旗子暗记为主导进行丈量的传感器。
大家知道,随着手机的快速发展,未来的手机会同时配备两类传感器,也便是深度传感器和传统的颜色传感器。

下面简要先容一下我们在这方面的一些探索性事情。
2009年,当时大疆无人机还做定制化产品,我们请大疆做了一台定制化无人机,目的用它来做倾斜角航拍,利用无人机从空中得到航拍影像,经由三维重修打算往后得到三维影像数据(把稳,还不是完全的三维模型),有了三维描述就可以从任意视角自由地漫游场景。
可以看到,只管用的只是二维传感器,依然可以通过视觉打算得到三维数据的描述。

隐式三维感知:动态相机实现***无缝接合

在我讲如何利用主动式传感器直接得到三维场景几何模型之前,我想先先容一下,实在对付影像的三维感知不一定要以显式的办法表示出来,可以通过隐式的方法得到一定程度的三维感知,也能实现一些类比于直接采取三维信息才能实现的功能。

这个好比人的视觉感知,我们虽然对视觉的认知是三维的,但也不是统统基于精确的三维丈量。
这里举几个例子。
比如,上面是电影里的一个片断,我们可以把个中的人物和演出放到一个新的场景里去,由于相机是动态的,这里就须要有一个隐式的相机三维位置规复,才能把一个动态的前景和一个动态的***背景无缝领悟在一起。

上面是一段演出***,我们可以提取它的一部分三维骨架信息,驱动一个不会舞蹈的人来舞蹈。
左边的这个人假设不会舞蹈,她只是做几个动作,右边大图里面左上角是真正会舞蹈的舞者,我们用她的专业动作来驱动不会舞蹈的人来舞蹈。
便是通过对“驱动”***进行三维理解并“迁移”三维动作到参考***中的人物而并合成新的***,于是在右边大图里,这位女士也会舞蹈了。

我们不仅可以把一个人的动作迁移到其余一位骨架类似的人身上,也可以把小孩的动作迁移到大人身上,乃至可以把动物的动作迁移到人的身上。
这就须要具备一定的三维骨架重定向的能力。

比如,下面的动图中有两个人在舞蹈,但是每个人的动作方向、脸部朝向、身高都有所不同。
像这样一个运动的定向差值,都是通过隐式三维理解和编码实现的。

下面讲主动传感器的利用,近年来主动式传感的发展非常非常快。
特殊是无人车技能的发展哀求,进一步推动了传感技能的飞速发展。
早在无人车火爆之前,我们就于2009年开始采取车载移动激光扫描器来进行城市级别的大场景三维扫描,构建城市场景的三维模型。

我们通过车载三维传感技能得到了大量点云数据,并利用这些数据进行几何建模,得到了非常风雅的三维模型。
我们对城市场景里各种类别的繁芜物体进行建模,例如对树木等目标进行三维识别,识别出不同类型的树,再针对不同树木的几何特色,对树木进行高风雅化的三维建模。

中心电视台曾经对我们做过一期专门宣布——《把城市搬到电脑里》。
当时我们对深圳一个片区进行了完全的三维建模。
这之后我们接到了很多电话,问我们:用你们的车开过一遍是不是就能得到我们城市的三维模型?实际上我们做不到,缘故原由不是由于数据处理的问题,而在于前真个数据获取。

我们的城市绿化做得太好了,车开过去只能扫描到树,扫描不到建筑。
如果要真正办理这个问题,就要把办理方案移到前端,想办法能够完全地获取数据。

因此,我们开始提出利用机器人获取数据,来进一步办理这个问题。
机器人在现场采集数据的同时进行数据剖析,看看数据是不是有缺失落,如果有缺失落就要走到相应地点去获取所需信息,从而形成一个数据获取与处理的闭环。

让机器人不仅看得见,还要看得懂

首先从单个物体的实验开始,机器人手持Kinect(一种利用构造光获取三维模型信息的主动式传感器)扫描一个物体,例如一个3D打印的玩具,能获取目标物体全方位的三维数据。
机器人自己方案扫描路径,直到末了得到一个完全的三维模型。

接其实验的是场景认知问题。
不仅要得到场景的完全三维数据,而且还要认识每个物体到底是什么,要去理解场景里的每个物体,获取物体的语义信息。
同样的道理,认知的过程必须形成一个闭环,机器人的实时决策能不能根据现有的三维数据对这个物体进行识别。
如果不可以,就要走到新的角度去获取数据。

进一步,我们的算法就可以拓展到一个更大的室内场景中。
这种情形下,只有一个机器人是不足的,我们可以利用多个机器人。
这些机器人要实现协作,须要一个实时的协同事情算法。
在室底细况下,我们已经有了非常好的机器人协同方案。

机器人不仅可以在三维空间导航行走,还该当成为真实天下的一员。
实现这一点就要让机器人和现实场景打交道,比如让机器人拿起一个杯子,打开一扇门,乃至和人握手等。
这种直接的三维交各别常主要。
这须要对机器人空间定位和路径方案进行更多的研究,这方面我们近期做了一些事情。

让机器人具备决策和实行力,替人类完成更多工

我们沿着这个技能路线探索,思路也变得愈发清晰。
通过三维视觉与人工智能技能的结合,我们让机器人更加智能化与功能化,让机器人做更多人在现实生活中能够做的事。
机器人具备现场自主决策和实行的能力,比如在工业流水线上可以帮助组装置件,物流场景中搬箱子等。
这样的运用,涉及到非常风雅化的技能,比如准确高效的运动方案,还有各种各样的掌握,智能的实行等。
我们在这方面也有了些探索性的事情。

随着三维传感器的遍及,三维数据越来越多,如何实现对三维场景的风雅化理解变得非常主要。
理解场景很主要也很有效的一个方法便是深度学习。
最早所有的深度学习都是针对二维影像。
卷积神经网络面向的是二维影像,而对付三维场景,输入数据是三维的点云。

由于没有卷积神经网络能够天然地处理非构造化的三维点云,我们针对这个问题设计了PointCNN卷积神经网络,它的性能是相称好的,我们也很高兴看到有很多公司在利用我们的网络。

面向物流领域的运用,我们还考试测验了一个机器人搬箱子的测试。
在去年京东“双11”期间进行了10天的压力测试,机器人在现场代替一组人(两人一组)去识别箱子、搬箱子,并把大大小小不同的箱子搬到传送带上。
这是我们的技能第一次从学校的实验室走进现实场景中。
但是我们也感想熏染到,越走近现实场景,问题就会越繁芜。
在座有很多企业界的人,欢迎各位能过来跟我们互换互助。

三维视觉智能的研究与运用如此主要,但海内还没有一个基于三维视觉的社区。
去年底,由本人调集在中国图像图形学会旗下成立了三维视觉专业委员会,目的是把学术界和企业界的干系人士联合在一起。
欢迎更多干系企业加入进来,一起推动三维视觉技能的发展。

感激各位!