书单25:《深度进修》(人工智能以前60年的成长和未来)_视觉_皮层
2019/2
1.机器学习的根本
深度学习是机器学习的一个分支,它根植于数学、打算机科学和神经科学。
如果说数据是新时期的石油,那么学习算法便是从中提取信息的炼油厂;信息积累成知识;知识深化成理解;理解演化为聪慧。
a.在汽车自动驾驶领域,一位叫特隆的研究者并没有遵照传统的AI方法,即通过编写打算机程序来搪塞各种偶发事宜,而是在沙漠中驾驶车辆,让汽车根据视觉和间隔传感器的感应输入,学习如何像人一样驾驶。
在驾驶领域的深度学习
在金融领域的深度学习
b.与驾驶领域类似,金融领域同样在进行深度学习,量化交易越来越被人们关注,这背后是算法交易的升级,通过延长持有头寸的韶光,它比传统的长期投资策略更快速,比股票市场中的高频交易更加慎重。许多不同类型的机器学习算法被组合利用以得到最佳回报。
c.除了无人驾驶和算法交易,阿尔法狗在围棋的胜利也引人瞩目,要知道围棋的合法棋局总数是10170,远远超过宇宙中的原子数量,这更解释算法学习背后的能量。
d.自20世纪30年代首次测试智力以来,全人类均匀的IQ分数每10年会上升三个点,这一趋势被称为“弗林效应”。对付弗林效应有许多可能的阐明,比如更充足的营养、更完善的医疗体系,以及其他环境成分。 这很有道理,由于环境会影响基因调控,从而影响大脑内在的连接,行为也会随之发生变革。 随着人类越来越多地生活在人造环境中,大脑正在以某种超越自然进化轨道的办法被塑造。
2. 人工智能的重生
按照摩尔定律,打算机性能每18个月翻一番,到2016年,打算机的运行速率已经快了上百万倍,打算机内存也从兆字节升级到了太字节。
与20世纪80年代只有数百个单元和数千个连接的网络比较,现在仿照出的神经网络具有数百万个单元和数十亿个连接。只管按照拥有数千亿个神经元和千万亿个突触连接的人类大脑的标准来看,这个数字仍旧很小,但现有神经网络的规模已经可以在有限领域中进行事理的证明。
3.神经网络的黎明
在20世纪50年代就已经存在各种暗示,如果AI研究者能够选择完备不同于符号处理的办法,打算机会如何表现出智能行为。
第一条暗示是,我们的大脑是强大的模式识别器;
第二条暗示是,我们的大脑可以通过练习来学会如何实行多少艰巨的任务,比如弹钢琴;
第三条暗示是,我们的大脑并没有充斥着逻辑或规则。(目前的机器全部是规则和逻辑,当有一天AI可以有一点违规,那么更高等的生命就算是出身了吧)
机器学习与面部识别
这张脸属于男性还是女性?人们通过演习感知器来辨别男性和女性的面孔。而机器通过面部图像(上图)的像素乘以相应的权重(下图),并将该乘积的总和与阈值进行比较。每个权重的大小被描述为不同颜色像素的面积。正值的权重(白色)表现为男性,负值的权重(玄色)方向于女性。鼻子宽度,鼻子和嘴之间区域的大小,以及眼睛区域周围的图像强度对付区分男性很主要,而嘴和颧骨周围的图像强度对付区分女性更主要。
区分男性与女性面部的事情有趣的一点是,虽然我们很善于做这种区分,却无法确切地表述男女面部之间的差异。
由于没有单一特色是决定性的,因此这种模式识别问题要依赖于将大量低级特色的证据结合起来。感知器的优点在于,权重供应了对性别区分最有帮助的面部的线索。
令人惊异的是,人中(即鼻子和嘴唇之间的部分)是最显著的特色,大多数男性人中的面积更大。眼睛周围的区域(男性较大)和上颊(女性较大)对付性别分类也有着很高的信息代价。感知器会权衡来自所有这些位置的证据来做出决定,我们也是这样来做剖断的,只管我们可能无法描述出到底是怎么做到的。
4.大脑式的打算
学者开拓了一种带有反馈连接的递归神经网络模型(CNS),通过检测双眼看到的随机点立体图中点的图像的轻微横向位移,来丈量工具的深度。 双眼深度感知是三维立体图产生效果的根本。
大脑研究中的层级
空间尺度范围从底部的分子水平到顶部的全体中枢神经系统。我们已经对每一个层级都有了深入的理解,但对具有少量彼此高度干系的神经元的网络层级,即由人工神经网络进行仿照的层级,却知之甚少。
5.洞察视觉系统
视觉是我们最敏锐,也是被研究得最多的一种感官。前额下方的眼睛带给了我们精准敏锐的双眼深度知觉,而我们的大脑皮层中一半的部分都是卖力视觉的。“眼见为实”这句针言就充分表示了视觉的分外地位。
然而,也正是这种良好的视觉,导致我们完备忽略了视觉系统背后巨大的打算繁芜性,大自然经由数亿年的进化才办理了这个问题。视觉皮层的组织构造为最成功的深度学习网络供应了灵感。
在1/10秒内,我们视觉皮层中的100亿个神经元并行事情,能够在凌乱的场景中识别一个杯子,即便我们以前可能从未见过那个杯子,也不论它在什么位置,多大尺寸,以什么角度面对我们。
猕猴视觉系统的信息流动示意图
箭头表示视觉区域的投影信息从视网膜开始,到达视觉处理的每个阶段都有多少毫秒的延迟。猕猴的视觉感知与我们人类的相似,我们也有相同的视觉处理阶段。
视觉始于视网膜,在那里,光感想熏染器将光转换为电旗子暗记。视网膜内有两层神经元,它们在空间和韶光维度中处理视觉旗子暗记,末了通过神经节细胞投射到视神经。
建筑灵感与阴影褶皱
史蒂文·祖克最近已经能够搞清楚我们是如何在有阴影的图像中看到褶皱的,其背后的阐明是基于类似山体等高线图的表面三维轮廓,以及图像上等照度轮廓之间的密切关系。 这种关联源于表面的几何形状。 这阐明了为什么我们对形状的感知险些不受照明以及物体表面性子差异的影响
猴脑中视觉区域的层级构造图
视觉信息从视网膜神经节细胞(RGC)映射到丘脑的外侧膝状核(LGN),个中继细胞投射到低级视觉皮层(V1)。皮层区域的层级构造终止于海马体(HC)。图中所有的187个连接险些都是双向的,有源自较低区域的前馈连接和源自较高区域的反馈连接人脑连接组。
基于水分子不屈均扩散的磁共振成像能够以一种非侵入性的办法追踪脑白质中的长程纤维束。不同的颜色标注了不同的路径方向。
6.语音识别的打破
独立分量剖析被运用于fMRI数据。每个分量由一个大脑活动图和一个韶光过程组成。这里显示了几种不同类型的分量。
7.霍普菲尔德网络和玻尔兹曼机
人工智能中利用的算法在运行了数十亿个步骤之后,却常常得不到一个精确的结论,而大脑只须要经历大约100个步骤,常日就会得出一个精确的结论。
霍普菲尔德网络就可以被用来实现一种“内容可寻址存储”。存储的信息可以只用信息内容的一部分作为提取输入,让神经网络完成信息添补。这让人遐想起了人的影象行为。如果我们看到某个熟人的脸,就能想起那个人的名字和先前与之交谈过的内容。
(有人说所谓回顾,难道便是海马体网络的一个求解过程,也便是收敛过程,进入稳态,就意味着方程收敛有解,得到答案,也便是回顾起来,如果进入混沌态,也便是无解,想不起来了……)
20世纪80年代,许多物理学家都曾利用霍普菲尔德网络实现了由物理学到神经科学的超过。利用理论物理的繁芜工具来剖析神经网络和学习算法的过程中,出身了很多惊人的创造。
(又有人说这是否可以解释“智能、意识、思维、感情”等等原来看似抽象的东西根本便是脑行为,其本色是物质性的,是可以通过物理重构的?也就间接证明了灵魂不存在或者说“灵魂”唯物不唯心?)
霍普菲尔网络仿照
单元都能向网络中所有其他的单元通报输出。输入标记为xi,输出标记为yj。连接的强度,或者说单元之间的权重是对称的:wij=wji。在每个步骤中,个中一个单元被更新为输入值的总和,并和一个阈值进行比较:如果输入之和大于阈值,输出便是1,否则输出便是0。
霍普菲尔德展示了这种网络存在一个能量函数,它不会随着网络中单个单元的逐次更新而增长:
E=∑ wij xi xj
终极,霍普菲尔德网络会达到“吸引子状态”,即所有单元值不再变革,能量方程达到局部最小值。这种状态等同于存储好的影象,可以通过部分存储好的状态来初始化网络,实现对完全影象的规复。这便是霍普菲尔德网络实现内容取址影象的方法。所存储向量的权重可通过赫布突触可塑性得到:Δwij=αxi xj
Δwij表示权重的变革,α表示学习速率,xi表示存储的向量。
8.卷积学习
学习过程中在突触层面发生失落活的好处,可能远大于准确性降落的代价。而且由于突触须要花费大量的能量,失落活也可以节省能量。末了,皮层利用概率来打算可能的,而非确定的结果,以是利用概任性分量是表示概率的有效办法。
视觉皮层与卷积网络在图像工具识别上的比较。
a,b是视觉皮层中的层级构造,从视网膜输入到低级视觉皮层(V1),经由丘脑(RGC,LGN)到下颞叶皮层(PIT,CIT,AIT),展示了视觉皮层区域和卷积网络中层次的对应关系。
c的左侧图像作为输入映射到第一个卷积层,后者由几个特色平面组成,每个特色平面代表一个滤波器,类似在视觉皮层中创造的定向大略单元。这些滤波器的输出经由阈值处理并搜集到第一层,再进行归一化处理,以便在小块区域中产生不变的相应,类似于视觉皮层中的繁芜细胞(图中方框:线性—非线性层中的操作)。以上操作在网络的每个卷积层上重复。输出层与来自上一个卷积层的全部输入具有全面的连接(每个输出单元都有上一层全部单元的输入)
9.褒奖学习
深度学习的唯一事情是将输入转换为输出。强化网络与之不同,它会与环境进行闭环交互,吸收传感器输入,做出决定并采纳行动。强化学习的根本,是不雅观察动物若何通过探索环境中的各种选择并从结果中学习,从而在不愿定的条件中办理难题。随着学习能力的提高,探索过程逐渐减少,终极会直策应用学习过程中创造的最佳策略。
个中多巴胺神经元活动的瞬时变革通报了褒奖预测偏差旗子暗记。
多巴胺神经元构成了掌握大脑中动机的核心系统,所有成瘾药物都是通过增加多巴胺的分泌水平起浸染。当去世亡的多巴胺神经元达到一定数量时,人体就会涌现帕金森病的症状、包括运动性震颤,运动迟缓,后期则完备损失任何活动的快感,即“快感缺失落”,终极导致活动和反应能力的彻底缺失落,即“紧张性烦闷障碍”。
当意外褒奖发生时,行为正常的多巴胺细胞会向皮层和其他脑部区域短暂开释多巴胺。当实际褒奖低于期望时,多巴胺的开释量会减少。这正是韶光差分算法的特色。
我们须要做出决定时,都会讯问多巴胺神经元。我们该当从菜单中点些什么?当我们想象每个菜品时,多巴胺细胞就会供应对预期褒奖的估计。我该当和这个人结婚吗?我们的多巴胺细胞会给我们一个比理性剖析更值得相信的“直觉”建议。
最难以决定的则是带有许多不相称维度的问题。在选择配偶时,要如何平衡诙谐感和邋遢的生活习气,或者在正面和负面的特质之间做出数以百计的其他权衡。我们的褒奖系统将所有这些维度降落到了一个“通用货币”的范畴,即短暂的多巴胺旗子暗记。这种“通用货币”的经济力量在我们创造它之前很长一段韶光,就已经被大自然所利用了。
10.火爆的NIPS
20世纪80年代,来自天下各地的工程师、物理学家、数学家、生理学家和神经科学家在NIPS大会上齐聚一堂,磋商共同构建人工智能的新方法。物理学家剖析神经网络模型,生理学家仿照人类认知,神经科学家仿照神经系统并剖析神经记录,统计学家探索高维空间中的大数据集,工程师则卖力构建具备类人的视觉和听觉的设备。人工智能就以这样的办法飞速发展起来。
11.智能时期
机器人宝宝Diego San。气压传动装置让所有枢纽关头都能平稳移动,这样就能跟人类握手了。面部由大卫·汉森(David Hanson)和汉森机器人公司供应。
12.芯片崛起
硅神经元。该仿照大规模集成电路芯片具有类似于神经元中离子通道的电路,能够实时对神经回路进行仿真操作,正如米莎·马霍沃德在芯片上绘制的卡通图所示。
上图DVS摄像机的图像帧中,白点是来自“开”(on)通道的脉冲,黑点是来自“关”(off)通道的脉冲。灰色表示没有脉冲。
在左上方的图片中,可以检测到两个脸部,由于它们在26毫秒的帧间隙内发生了轻微的移动。在右上角的(杂耍)图片中,斑点的到达韶光由灰度表示,因此就能看到物体的移动轨迹。左下方图片中的旋转盘以每秒200转(rps)的速率旋转。
在底部中间的图片中,轨迹是向上移动的螺旋。右下方螺旋短暂的300微秒切片中,只有80个脉冲,通过丈量玄色和白色脉冲的位移,并除以韶光间隔,很随意马虎打算出速率。
请把稳,具有26毫秒取帧周期的普遍数码相机无法跟随以200赫兹旋转的点,由于旋转周期为5毫秒,并且每个帧都显示了一个环。DVS相机的唯一输出是一串脉冲,就像视网膜一样。这是表现场景的有效办法,由于大部分像素在大多数韶光都保持不变,而每个脉冲都携带着有用的信息。
13.信息科学
感知取决于对早期感官事宜提取的规律性的期望。在这个框架中,由较高层级皮层产生确当前感知旗子暗记的预测来自E和R群体之间的相互浸染,并且被反馈到下面的层级(E是偏差单元,R是表征单元)。只有预测偏差会向前传播。
具有层级构造的预测编码框架。
14.深度智能
深度学习终极的目标是阐明跨空间和韶光尺度的生物系统中嵌套的繁芜性:基因网络、代谢网络、免疫网络、神经网络和社交网络——全部都是网络。
深度学习取决于对一个本钱函数的优化。自然界的本钱函数是什么呢?进化本钱的倒数被称为适应度,但这是一个观点,只在详细的约束条件下才故意义,无论约束条件是来自环境,还是来自要被优化的系统。在大脑中,有一些调节行为的固有本钱,例如对食品、温度、安全、氧气和生养的须要
本文系作者个人观点,不代表本站立场,转载请注明出处!