没错AR其实也是AI_技巧_人工智能
先来大略梳理下AR的核心技能
AR(Augmented Reality),是在现实天下中叠加虚拟信息,也即给现实做“增强”,这种增强可以是来自视觉、听觉乃至触觉,紧张的目的均是在感官上让现实的天下和虚拟的天下领悟在一起。
个中,对现实天下的认知紧张表示在视觉上,这须要通过摄像机来帮助获取信息,以图像和***的形式反馈。通过***剖析,实现对三维天下环境的感知理解,比如场景的3D构造,里面有什么物体,在空间中的什么地方。而3D交互理解的目的是奉告系统要“增强”的内容。
图.范例AR流程
这个中有几个关键点:
首先是3D环境理解。要理解看到的东西,紧张依赖物体/场景的识别和定位技能。识别紧张是用来触发AR相应,而定位则是知道在什么地方叠加AR内容。定位根据精度的不同也可以分为粗定位和细定位,粗定位便是给出一个大致的方位,比如区域和趋势。而细定位可能须要精确到点,比如3D坐标系下的XYZ坐标、物体的角度。根据运用环境的不同,两种维度的定位在AR中都有运用需求。在AR领域,常见的检测和识别任务有人脸检测、行人检测、车辆检测、手势识别、生物识别、情绪识别、自然场景识别等。
在感知现实3D天下并和虚拟内容领悟后,须要以一定办法将这种虚实领悟信息呈现出来,这里面须要的便是AR中的第二个关键技能:显示技能, 目前大多数的AR系统采取透视式头盔显示器,这个中又分为***透视和光学透视,其他的代表有光场技能(紧张因Magic Leap而显名)、全息投影(在科幻影视剧作品中常涌现)等。
AR中的第三个关键技能在于人机交互,用以让人和叠加后的虚拟信息互动,AR追求在触摸按键之外自然的人机交互办法,比如语音、手势、姿态、人脸等,用的比较多的语音跟手势。
人工智能和AR的技能关联
在人工智能领域有几个观点常被提及,如深度学习(DL)、机器学习(ML),在学术领域包括人工智能(AI)在内几大领域均有自己的研究界线,而在普遍意义上,我们常说的是泛意的人工智能,涵括所有“让机器像人一样”的技能的运用方向。
从这张图也可以大略一窥三者的关系,深度学习是实现机器学习的一种技能办法,而机器学习是为了让机器变得智能,去达到人工智能。可以说人工智能是终极目标,而机器学习是为了实现这个目标延伸出的一个技能方向。在这个中,还有另一个主要观点为打算机视觉(CV),紧张来研究如何让机器像人去“看”,是目前人工智能观点中的一个主要分支,这也是由于人类获取信息最紧张的办法之一便是视觉,目前打算机视觉已经在商业市场发挥代价,比如人脸识别;自动驾驶中读取交通信号和把稳行人以导航;工业机器人用来检测问题掌握过程;三维环境的重修图像的处理等等。这些观点既有区分也有一定范围的重叠。
个中,2006年开始,Hinton引发的深度学习热潮开始蔓延,在一定程度上带动了AI的又一次崛起,十年中,在包括语音识别、打算机视觉、自然措辞处理在内的多个领域取得重大打破,并向运用领域延伸,正发展的风起云涌。
在AR的核心技能中,3D环境理解、3D交互理解和打算机视觉、深度学习都有着紧密的联系。3D环境理解在学术界里紧张对应的是打算机视觉领域,而近年来深度学习在打算机视觉中得到广泛运用。交互方面,更趋自然的交互办法如手势和语音在硬件终真个利用,得益于近几年深度学习在干系领域的打破。也可以说,深度学习在AR中运用紧张在视觉关键技能。
目前,AR最常见的形式的2D图片扫描识别,如腾讯***-AR火炬活动、支付宝五福等多数AR营销中所见,用手机扫描识别图涌现叠加的内容,但紧张的研发方向还在3D物体识别和3D场景建模。
现实的物体因此3D形态存在的,有不同的角度和空间方位。以是一个自然的扩展便是从2D图片识别到3D物体识别,识别物体的种别和姿态,深度学习可以用在这里。以水果识别为例,识别不同类别的水果,并且给出定位区域,即集成了物体识别与检测的功能。
3D场景建模,从识别3D物体扩大到更大更繁芜的3D区域。比如识别场景里面有哪些东西、它们的空间位置和相互关系等等,这便是3D场景建模,是AR比较核心的技能。这个中涉及目前热门的SLAM(实时定位与舆图构建)。通过扫描某个场景,然后在上面叠加虚拟沙场等三维虚拟内容。如果只是基于普通2D图像识别就须要有特定的图片,而在图片不可见时会识别失落败。而在SLAM技能里面,纵然特定平面不存在,但是空间定位依然非常精确,便是由于有周围3D环境的帮助。
这里想磋商下深度学习和SLAM技能的领悟,打算机视觉大体上可以分两个流派,一种基于学习的思路,例如特色提取-特色剖析-分类,目前深度学习技能在这一起线上取得了主导性的地位。其余一种路线是基于几何的视觉,从线条、边缘、3D形状推出物体的空间构造信息,代表性的技能便是SFM/SLAM。基于学习的方向上深度学习基本上一统天下,但是在基于几何视觉的领域,目前干系的进展还很少。从学术界而言,深度学习技能的研究进展可以说日月牙异,而SLAM技能最新十年的进展相对较少。在国际视觉顶级会议ICCV 2015年度组织的SLAM技能专题谈论会上,基于近年深度学习在视觉其它领域的快速发展,有与会专家曾提出SLAM中采取深度学习的可能性,但是目前还没有成熟的思路。总体而言,短期内将深度学习和SLAM领悟是一个值得研究的方向,长远来看联合语义和几何信息是一个非常有代价的趋势。因此,SLAM+DL值得期待。
在交互办法,紧张的包括语音识别和手势识别,语音识别在目前已经取得了较大进展,海内如百度、科大讯飞、云知声等都是个中的佼佼者,AR公司更想打破的是手势识别的成熟商业化,比如亮风台展示过的一款基于深度学习的手势识别系统,紧张定义了高下旁边、顺时针、逆时针六种手势,首先实现人手的检测和定位,然后通过识别相应的手势轨迹来实现对人手势的识别。而人脸识别等其他人工智能热门领域在AR中也有利用,但不是AR公司主要的研发方向。
以上不丢脸出,AR的底层技能或者说根本部分是打算机视觉以及关联领域的领悟,而当下热门的深度学习和AR的结合,也是算法工程师们的努力方向。这也是AR为打算机视觉与人机交互的交叉学科,AR的根本是人工智能和打算机视觉等说法的依据。
图:打算机视觉与AR流程关联
在去年今日发布的《人工智能影响力报告》中也大略统计了人工智能科学家的分布情形,这个中包括人脸识别、语音识别、机器人、AR、芯片等领域的公司与大型研发机构,高端研发职员的分布也解释了AI领域的细分方向。
那AR究竟是不是人工智能?
对AR从业者来说,空想的状态是用更智能的AR终端去取代智好手机,以是对付用户来说打仗利用AR首先受影响的是内容,其次是终端,AR家当链如果粗暴划分包括技能供应商、智能终端研发公司,以及AR内容供应商。在这个中,AR设备供应商不可避免关注硬件技能,如底层的芯片、电池、光学镜片等,以及硬件本身的性能优化,而内容供应商更方向于在现有技能根本上优化内容及表现。以是我们可以说AR技能供应商,或者说在底层算法研发上有一定成绩的AR公司是人工智能公司。
对公司来说,特殊是创企会把底层技能转化为成熟的产品或做事,这可能是如无人机、AR智能终端、机器人等,也可能是行业办理方案,以达到商业目的,并且这已经成为在沸腾声音之后,媒体、企业以及大众对AI企业的期待和哀求。近期,人工智能家当发展同盟(AIIA)出版的图书《人工智能浪潮:科技改变生活的100个前沿AI运用》将对外发布,以及涵括了目前巨子公司以及创企在商业化上的前沿成果,也直接反响了AI目前的紧张商业化方向。
作为技能驱动的商业领域,无论是AR还是人工智能的其他多数方向,技能间隔完备成熟还有很长的路程要走,在全体家当链逐渐繁荣,关注商业化实现的同时,也须要有更多公司机构去不断拓展技能边界,建立核心竞争力,让行业爆发更大的代价与潜力,如此,AI时期中国弯道超车当可期。
本文系作者个人观点,不代表本站立场,转载请注明出处!