出品:格致论道讲坛

仿制人眼相当于仿制了人类的全体大年夜脑?_眼睛_年夜脑 智能问答

以下内容为中国科学院上海微系统与信息技能研究所研究员张晓林演讲实录:

本日我紧张讲一下我们团队在我们的领域得到的一些新的进展,首先,我们讲一下仿生眼。

由于眼睛是所有生物或者是绝大部分生物赖以生存的主要工具,可以说没有眼睛,绝大部分生物险些无法生存,包括人类。

眼睛是怎么出身的呢?

大家可以想象,在寒武纪,也便是在5亿多年前,有一个小的生物,它的大脑上长出了一颗感光的细胞。

由于有了这个细胞,它可以感知周围的环境,使它的生存能力大大提高。

随着进化,眼睛被越做越好,生物们的竞争更加激烈起来,也会产生两性,也便是说雄性和雌性之间可以相互追逐了。

当然在那之前也有两性,但是它们相互之间无法找到对方。

随着这些能力的进化,产生了寒武纪的生物大爆发,也便是在几百万年间,大量的生物出来。

当时的眼睛千奇百怪,有一只眼的,也有三只眼的、六只眼的,乃至有浑身都是眼的,末了逐步进化成了现在的几种眼睛。

由于眼睛是从脑筋里面出来的,以是人的眼睛也是一样,是大脑伸出体表的唯一的一个器官,我们的眼球实在便是大脑。

由于眼睛的功能极为分外,而且它与大脑的联系非常紧密,以是要制作仿生眼,就要研究大脑。

因此我们说,仿生眼便是仿制大脑最精细的部件,由于仿生眼本身便是机器视觉。

但是为什么要把仿生眼与机器视觉做比较呢?

是由于现在的机器视觉,比如大部分的无人驾驶,或者是机器人,用的视觉基本上是主动式的,什么叫主动式的?

比如激光雷达是要射出一束激光,然后来丈量它返回来时的韶光,来测深度,因此激光雷达或TOF相机,或超音波雷达等,基本上都是主动式的机器视觉。

而仿生眼属于被动视觉,它是用自然的光,来丈量对方的间隔,丈量它的颜色、位置等。
以是说我们把仿生眼定义在了被动视觉的领域。

仿生眼的种类

虽然自然界中有很多种眼睛,但是大概也就分为四种。

首先一种,便是叫蜘蛛眼,该当说是比较完善的,视觉系统里面最大略的眼睛。

蜘蛛的眼睛有8只,前面4只,后面4只,以是全方位它都能看得见,由于它没有脖子,以是须要瞥见全方位。

而且蜘蛛的眼睛也都是一对一对的,以是我们把蜘蛛眼认为是和现在的相机,比如双目相机、多目相机一样的东西。

第二个是复眼,也就昆虫的眼睛,是自然界里种类最多的眼睛。

再往上更高等一点,比较有特点的便是鹰眼,老鹰的眼睛可以在千米高空看到下面的小动物。

所有这些眼睛里,最好的眼睛,即综合能力最强的眼睛,是人类的眼睛。

绝大部分动物的眼睛都是黑白的,它们看不到彩色,当然有些昆虫是有的。

人类的眼睛在进化的过程中,由于人类的大脑是最发达的,以是它的能力就各式各样,特殊多。

下面这几张机器图,是我们团队制作的各种眼睛。

先讲一下蜘蛛眼,蜘蛛前面有两对大的眼睛,里面有两万多个感光细胞,相称于两万个像素分辨率的相机,而且是固定相机。

以是我们就把目前为止在行业上紧张运用的立体相机,双目的或多目的相机,都称为仿生蜘蛛眼。

还有一种比较好的眼睛叫仿生复眼,复眼是所有昆虫都在用的眼睛,蜻蜓是昆虫里眼睛最好的,它有两万多个小眼,它的小眼是什么事理?

大家可以看上面的图,每一个小眼上都有一个小透镜,这个小透镜,让它可以把一束光打到它的焦平面上。

也便是说,焦平面上有一点,它就可以对应这个方向上的一束平行光,如果焦平面上有三点,它就有三束平行光。

蜻蜓的眼睛或果蝇的眼睛等等,基本上都有8个感光神经,便是每个小眼下面有8个感光神经,即有8束光。

如果把所有小眼中的每一个对应的感光细胞图像抽取出来,它便是一幅图像,如果有8个感光神经,就有8幅图像。

有8幅图像能够检测出不同方向的光,这样就可以做成一个视差,也便是复眼本身就带有立体视觉的功能,而这个功能,运算相对大略。

像昆虫这样没有太繁芜的大脑的生物,它们也能有立体视觉的觉得,也能够让它们落在树枝上,也可以抓取猎物。

我们也模拟这种构造做了仿生复眼,比如在右上角可以看到,每一个小眼下面都有几个像素。

我们在普通的摄像机上贴上小型的眇小镜头,目前为止,我们可以得到一个比较好的图像。

但是问题来了,我们无法做球形芯片,由于现在的芯片全是平面的,以是这一个仿生眼只能看到这一壁光束,这是不足的。

如果想要散开,和普通相机一样,有大一点的视场角,那就一定要有球面的芯片,现在做复眼的环境,没有完备成熟。

下面我们再讲一下鹰眼,老鹰的眼睛和人类不太一样的是,它有两个中央视。

也便是人眼看中间看得清楚,而阁下是有点模糊的,不是很清楚。

但是老鹰的眼睛有两个中央视点,一个叫深的中央视,它可以看很远的地方。
可能人视力有1.5,就算是视力好的眼睛了,它可能是十或者几十也说不定。

还有一个浅的中央视,它有两种办法,大家可以看下面这张图。

当鹰在高空盘旋时,它用一只眼睛看底下,即用深的中央视看,如果看到下面有猎物,比如有小老鼠,它就开始盘旋下来。

快到底下时,离猎物近了,它就开始用两只眼睛看,这时是用浅的中央视看,这时它会走直线,能很准确地抓到猎物。

由于用两只眼睛看,它就会有深度,以是能准确地丈量间隔。

再详细一点,可以看这样的图。

右上图可以看到深的中央视,上面是两个斜线,这两个是拼在一起的,也便是说深的中央视是无法形成立体视的,以是它看什么东西都用一只眼睛看。

大家看到,鸡看你时,它是侧着脸看你,而它用浅的中央视是可以做立体视的。

我们做的仿生眼的相机也是一样的,广角的是两只眼,望远的或者变焦镜头是一只眼。

这全体头是可以动的,刚才看到的图也是这样,无论下面怎么晃,上面是非常稳的。

大家也看到过那种***,便是鸡的身体怎么晃,头都是不动的。

当然我们现在做的这个鹰眼,它只是姿态,三个自由度,而人的脖子有7个颈椎,平移也是可以的。

以是人如果乐意,头可以不动,身体动,但是人类的脖子太短了,而鸟类的脖子比较长,无论怎么晃,上面都是可以稳的。

最好的眼睛还是人眼,由于人的大脑好,我返国后,花了7年的韶光,终于把仿生眼做成了产品。

眼睛是大脑的一部分,以是只有一个眼球是什么也看不到的,由于视觉传感器和其它传感器不一样。

比如温度传感器,把温度旗子暗记提交过来,我就知道了,如果是触觉上的力觉传感器,一个力过来我就可以知道了。

但是视觉不一样,由于图像过来,你不知道是干什么用的,必须要做非常繁芜的处理才行。

眼睛包含大部分的大脑

以是眼球险些牵扯到大脑的所有部分,也便是说眼睛就完备包括全体的大脑,它相称于一个脑系统。

如果把眼睛做好了,便是把全体大脑都做好了。

通过眼睛的视觉进来后分两块,一块进入到上丘的地方,还有一块进入到后脑的地方,叫枕叶,它叫视觉低级皮层。

进入这两个地方后进行处理,处理后的结果又反馈到脑干上来掌握眼球,脑干有掌握的系统,这个掌握如果是要做微调,或者做更好的效果,小脑又有帮助。

小脑直接牵扯到人眼的掌握,它是一个万能的学习掌握系统,然后在大脑里面,又往上走,走到顶叶、韦尼克区、布罗卡氏区,再往前面走便是额叶前区。

额叶是做决策的,再到顶叶,便是脑顶端,去做运动方案,这一套系统做出来,我们的眼球就可以动了,而且同时还可以掌握我们全体身体的运动。

我们把这个过程画成了一个方框图。

首先,脑干包括中脑、脑桥、延髓,中脑的上丘被我单独分离出来了。

紧张的脑干的系统做了一个最根本的运动掌握系统,这也是最原始的大脑的眼睛运动掌握系统。

由于很多动物没有大脑小脑,仍旧能满地跑,以是眼睛根本掌握基本上是在脑干上。

脑干这一部分的掌握特性是比较独特的,我们当时创造脑干上的旗子暗记都是做交叉的,这个交叉产生的浸染就叫做折衷运动。

也便是它把人的两个眼球一起运动的部分和相对运动完备独立分割开来做,左边这个是普通的掌握方法,两只眼是单独掌握的,右边这个是仿生眼的折衷运动掌握方法。

不一样的是,普通方法,当你遮住一只眼,瞥见它停了,然后再给它两个球的时候,眼睛是会乱的,便是有时会各看各的,由于两个球完备一样。

但是仿生眼不会,你遮住一只眼,它会一起走,然后再给它两个球,它也不会乱,当然它还可以对眼,还可以辐辏。

脑干上还有一个很主要的特点,便是它把所有旗子暗记都统合在一起了。

以是我们的眼球可以做跟踪,也可以做切换运动,即高速的跳跃运动,也可以防震,底盘的防抖等功能都可以。

它能够把所有的掌握系统都领悟在一起,这也是脑干很主要的提示。

上丘是中脑后面的一个部位,中脑后侧有4个球,有4个鼓包,上层的两个鼓包叫上丘,这个是低等动物的中枢决策器官。

低等动物没有大脑小脑,它紧张的命令器官便是从上丘来的,以是人类现在还保留着上丘,它掌握眼球的跳跃运动,即眼的目标切换。

也便是说人无论怎么跑,跑得多快,或者骑着摩托车,或者开飞机,依然可以想看谁就看谁。
对方也在跑的时候,在好几个人中,我想看他也可以看。

高速跳跃、高速的掌握,便是从上丘发出来的,为什么上丘会有这个功能?

实在这两个不是完备匹配的,右边是人的视网膜,左边是猴子的上丘,猴子上丘的中层,有一个舆图和视网膜是逐一对应的。

也便是说如果在视网膜上,用光来刺激某一点,在上丘上与它对应的这一点的神经细胞就开始愉快。

它会带领周边的神经细胞愉快,眼球就转了,把刚才刺激它的光斑放到视觉中央,也便是中央视这个位置,或者叫作中央凹,或者叫黄斑,就把这个位置对准了。

这个运动掌握精度非常高,准确率也非常高,人的大脑能够掌握眼球便是由于这一点。

实在眼睛是一个完备自动的系统,外部只给它一个位置命令,看哪的命令,迭代性眼球运动掌握是一个很大略但效率非常高的掌握系统。

这个眼球在快速转,这也是仿生眼的很主要的特点。

买得手机或者相机的稳拍系统,人拿着它动,它上面也是稳的,但是一样平常这种系统不能快速运动,由于它的马达力量不足那么大。

由于马达力量一旦变大,或者电机一变大,掌握就会变得非常繁芜,以是我们就把快速运动加在里面。

小脑的构造看起来和大脑完备不一样,它是分离出来的,大家以为大脑彷佛是万能的,什么都能干,实在不是。

能掌握身体的各种运动的是小脑,大脑是做不到、做不好的。

现在搞小脑研究的不是很多,人工智能神经网基本上是关于大脑的。

当时是用猫的视觉皮层的拓扑构造,做了数学模型来仿照,产生了现在的神经网,有大量的研究出来,小脑这块的模型没有做成功。

小脑上一共就有5种细胞,而且它的构造非常同等,就是非常规则。

以是按道理讲,做小脑模型不是一个特殊难的事情,不知道为什么,大家做不出来。

我们也做过,而且做了好多年,试图把小脑的构造做成神经模型,虽然能有些许效果,但是效果不是特殊好。

我猜有一个很主要的缘故原由,便是我们无法把积分、微分这些与韶光干系的要素加到神经模型里,怎么加进去是一个难题。

我一贯认为,可能要在频域做这件事,但是有一点大家是有共识的,便是小脑的学习系统在全体掌握系统里面的位置是定的。

这样一个构成,也便是右侧这个前馈系统和反馈系统中间,可以加一个学习功能系统,这个学习功能只要做得好,所有东西就都可以掌握了。

现在我们掌握机器人都是钢体的,钢体强度越强,精度越高,但是精度越高,它哀求钢体越强,就越重,这便是相互抵牾的。

以是我们做挖掘机就做不到太完美,做不出来像人手臂这样完美的东西,实在和掌握有很大关系。

大脑视觉皮层的位置

我们视觉的紧张处理系统是在大脑的视觉皮层上,这个位置的紧张功能有很多,比如特色抽出、匹配、检测、分类等。

再细分一下,便是大脑可以分成四大块,最前面的叫额叶,便是脑门这里,上面是顶叶,后面是枕叶,再到颞叶。

再细分的话,是有52个区,有小区,当然还可以再细分,每一个区的功能不一样。

比如枕叶,这是我们视觉处理的根本处理的地方,把图像变成各个故意义的东西,例如桌子、地面、椅子、电视等,它把它们分类。

视觉皮层上两侧的,便是耳朵的听觉方面的处理,这两个处理做成一个抽象的信息后,进入顶叶,在顶叶做更进一步的剖析。

然后传到额叶做决策、做判断,再回到顶叶做身体的掌握,运动方案。

这是猴子的大脑布局,便是它的视觉皮层,也便是枕叶这个地方还有几个区,比如V1、V2、V3、V4,实在还有V5没画出来,还有MT这些特色。

我们可以逐步给这些特色分类,比如V1便是做边缘的,做视差打算的。
在V2这里,局部的纹理,边界界定,相对视差等。

实在这些功能,我们在视觉领域搞视觉研究或者图像处理的人,已经有类似的可以匹配的地方,叫做特色线的提取与匹配。

当空间上的一个图像进来后,有一种特色点和特色线的抽取办法,由于点和线的特色比较强烈,以是它很稳定。

我在不同角度都能看得到,就能抽得出来,这样有什么效果?

我根据空间上的这些点,就能反算出自己的位置,反算出自己的坐标。

以是可以根据右面那些空间的特色点、特色线,反算出自己摄像机的位置,这个摄像机是怎么走的、轨道是怎么样的就出来了。

当然轨道天生是另一方面,至少特色点、特色线,该当是在枕叶最根本的V1领域做的。
V1领域和V2领域还有别的特色,比如边缘的抽出。

下面便是上面这张图的边缘抽出。

同时它还有远近丈量的功能,把空间所有点的深度间隔算出来,叫视差图或深度图。

红的是近,蓝的远,然后再把它的颜色贴上,便是三维图了。

在打算机的坐标上,每个点是三维的,再走到V2这一块,可以看到上面的V2是局部纹理、边界界定、相对视差等。

我们在图像处理上就叫做语义识别,也便是把空间的各个东西都分离出来,墙是墙,地面是地面,门是门,然后它再把语义分离出来。

场景分割等这种图像处理的术语和脑袋里V2的功能比较对应,这些都是生理实验做出来的。

V3就更近一步了,这里面就有方向的选择或初步的运动加工,还有语义分割、光流,它和图像处理里面的语义分割或光流的检测很靠近。

我们在光学上也做了实验,这都是我们实验室的研究结果。

亮度代表它的速率,赤色代表向右,蓝色代表向左,它把一个图像上的所有点都用速率来显示,这个就叫光流,我们在大脑的V3领域做这件事。

还有进入到更深一层的,就像V4里面就有高度分解,有曲率还有颜色等,这些我们在图像处理里面,就可以分成实例分割或语义识别。

什么叫实例分割、语义识别?

这和刚才是类似的,但是刚才只是把它变成性子了,比如墙或人等。

我们这里便是要把每一个人分离出来,也便是这个人走了一会后,不能把他再当成别人,要知道这和刚才的是同一个人。

以是它把空间上有用的东西、我们想要的东西抽取出来,这叫做实例分割。

再往下便是MT的功能,可以看到它这里处理运动的、处理深度的、处理掌握的,实际上它就可以造作风检测了。

由于有了这些处理结果,就可以做目标检测,做深一层的跟踪。

实在我们很早就做过这一块,这该当是十五六年前的***了,它跟踪你的脸,你走近它就退,你退它就追,担保一定的间隔,这便是当时图像处理的一个机器人。

再往下,便是大脑这部分,实在大脑的颞叶里有一个海马体,这个抠出来的图案就像一只海马,以是我们叫海马体。

这一块是做位置影象的,做舆图、做环境的。

这张图是一位诺贝尔奖得到者做的,他把海马体的性子研究出来后揭橥了论文。

便是说海马体上有位置定位的细胞,也有头部方向的细胞,也有分边界的细胞,都是逐一对应的。

这便是我们常用在机器人机器视觉上的,这是一个小机器人,它的速率比较快。

它跑一遍,眼睛所看到的地方都能做出立体图,然后把它们拼接在一起,末了就会形成一个整体的图像。

整体图像出来后,我就可以命令这个机器人到什么地方去,这个图像做成后还可以上传到云端,传给其他机器人,其他机器人就不须要再做了。

它也能行走,可以避开障碍物,也可以做轨道天生,这一部分有些功能就相称于脑袋顶叶的行动方案,这一部分合在一起了。

现在我们再往上走,就走到顶叶和前额叶,基本上就可以看到关于一样平常性理解的运动措辞还有逻辑剖析和决策。

这个实在是我们现在研究上还比较弱的地方。

猴子的上一层就相称于我们的视觉皮层,即枕叶到顶叶打仗的,这一部分的各项功能在里面也是逐一对应的。

这个逐一对应的地方,我们在搞人工智能和图像处理时也是有的,比如我们现在做的把稳焦点显著性等。

人把稳到什么地方,或者说机器人或仿生眼它看哪个地方感兴趣,它去看才行,这个总不能用人来掌握它。

它对哪个地方感兴趣,首先它要把语义分割、实例分割等检测出来,同时它又要知道自己的位置,然后再看到对方的速率,也便是光流。

经由它的综合判断,以为什么地方该去看,什么地方危险或什么地方主要,它要去看。

这里面的热力争代表的是它感兴趣的地方,这也是一个比较深层次的研究。

再往下走,叫做机器人的意识空间,我们常说,看电视、看电影让人失落去想象的空间。

实在我们看小说时,比如看《三国演义》,看关云长千里走单骑,脑筋里会有这种空间的想象,现在看了电视后,这种想象就差了。

但是这种想象,我们要在机器人里做,这就叫意识空间。

这些意识空间是带有物理特性的,这个小熊或者苹果都是有质量的。
还有各种摩擦系数等功能。

这种模型或者叫物理模型搞的人不是特殊多,我国做的比较少,刚才的所有***和图片都是我们实验室做的。

但唯独这一个,是我们请日本来的一个兼职教授做的,他花了20多年的韶光。

我也非常希望我们中国的年轻人,将来会花10年、20年的韶光坚持做一件事,把这种比较有深层次的、有理论根本的东西做好。

如果有了物理空间在机器人头脑里,那么它就可以有一个想象空间,它就可以做物理推演。

什么叫物理推演?

比如我们做下棋,下围棋、下象棋,你下不过机器人了,由于每一个棋子的推演,机器人比你看得更远,看得更广。

但是物理推演还差,比如让机器人踢足球,它们踢不过人。

便是说机器人若何在看到对方的球员和自己球员的位置和行动速率,再加上球的运动速率时,来推测出自己在什么位置最好,该当怎么做。

这种物理推演,如果我们意识空间做得好,将来人也会比不过机器人。

还有一个非常主要的机器人比人强的地方,那便是云脑,即须要韶光考虑的或者须要大量数据的,都可以弄到云上去。

由于云上可以有大型打算机,有大量的数据,以是我们现在做云脑,便是我们可以给它各种东西看,或者它自己走。

通过语义分割、语义识别等功能,它自己做信息,我们叫做知识图谱。

然后再让它干什么时,它就可以根据自己得到的知识做判断,这便是云脑的功能。

仿生眼的家当化

我们做家当化做得比较久,最开始是做3D拍摄,由于3D拍摄的两个相机的位置要和人眼一样,人看了才不会晕,效果比较好。

我们做完后,创造这个市场没有了,由于现在的3D拍摄都用2D转3D,电视机的3D也没有人搞了。

但是我估计,将来3D的头显出来后,这个家当还会再重新发展起来。

再一个便是我们做的仿生眼最近开始发卖,紧张是对应搞研究的人。

这个仿生眼的两只眼睛动,它可以做左下角的深度图,也可以做三维重修,比如语义分割和显著性。

能够做深度图的可动的眼睛,现在我们在国际上还没创造有别人做出来,这是我们一个很大的成果。

我们这个仿生眼也可以做导航,右边便是我们抓的一个固定好的双目。

我是震撼着走的,这时的图像不仅模糊,下面的轨道也是很乱的,有时就看不见,断了,它要靠IMU 陀螺仪加传感器来接续。

但是左边便是用了仿生眼,这个仿生眼无论被怎么晃,图像都非常稳定,以是效果也非常好。

我们在家当上,比如新松机器人的一个获奖的产品,便是用了我们的机器头脑、仿生眼。

右边是我们自己在做的机器人,带机器头脑和眼,上海市给了我们一个比较大的项目做机器头脑。

这块便是无人驾驶了,现在做自主行驶机器人,在无人驾驶领域肯定会有很大的用途。

由于现在无人驾驶的双目都是固定的,固定双目有个最大问题便是当车平稳地走时没问题,一碰着颠簸,图像立时就模糊了,它就看不到了。

当然人眼不会涌现这个问题,当你摔跟头时,双眼看得很清楚。

视觉系统必将引发机器人寒武纪的到来,生物的寒武纪是生物的眼引起的,视觉系统一定会引起机器人种族的寒武纪。

也便是说如果眼睛做好了,我们的机器人就会满地跑了。

“格致论道”,原称“SELF格致论道”,是中国科学院全力推出的科学文化讲坛,由中国科学院打算机网络信息中央和中国科学院科学传播局联合主理,中国科普博览承办。
致力于非凡思想的跨界传播,旨在以“格物致知”的精神磋商科技、教诲、生活、未来的发展。
获取更多信息。
本文出品自“格致论道讲坛”公众号(SELFtalks),转载请注明"大众号出处,未经授权不得转载。