人工智能成长简史——从理论走向应用_神经收集_梯度

2024-11-20 07:04:30 云服务

这个模型是对生物神经元的一个建模。
当时是希望能够用打算机来仿照人的神经元反应的过程，该模型将神经元简化为了三个过程：输入旗子暗记线性加权、求和和非线性激活（阈值法）。
人工神经网络（ANN: Artificial Neural Network）以此为开端，不过这个模型直到1958年，才开始有了实用代价。

人工智能成长简史——从理论走向应用_神经收集_梯度云服务

M-P人工神经元模型

1958年，打算机科学家罗森布拉特（ Rosenblatt）提出了一个由两层神经元组成的神经网络，称之为“感知器”(Perceptrons)，第一次将M-P模型用于机器学习的分类(classification)问题。

人工智能先驱Marvin Minsky

1969年，美国数学家及人工智能先驱 Marvin Minsky 在其著作中证明了感知器实质上是一种线性模型（linear model），只能处理线性分类问题，就连最大略的XOR（异或）问题都无法精确分类。
由此，神经网络的研究也陷入了将近20年的结束，进入了第一个寒冬期。

发展阶段（1986-1998）

1986年，神经网络之父 Geoffrey Hinton 发明了适用于多层感知器（MLP）的BP（Back Propagation）算法，并采取Sigmoid函数进行非线性映射，有效办理了非线性分类和学习的问题。
这种方法引起了神经网络的第二次热潮。

Sigmoid函数

多层感知器：至少有一个隐蔽层

当神经网络的规模增大时，利用BP算法会涌现“梯度消逝”的问题。
当梯度消逝发生时，靠近于输出层的隐蔽层由于其梯度相对正常，以是权值更新时也就相对正常，但是当越靠近输入层时，由于梯度消逝征象，会导致靠近输入层的隐蔽层权值更新缓慢或者更新结束。

梯度消逝问题限定了ANN构造的层数（规模）

90年代中期，以SVM为代表的其它浅层机器学习算法被提出，并在分类、回归问题上均取得了很好的效果，而ANN则相形见绌，人工神经网络的发展再次进入瓶颈，迎来了第二个寒冬期。

深度学习开始（2006-2012）

2006年，Geoffrey Hinton 和他的学生 Ruslan Salakhutdinov 在顶尖学术刊物《科学》上揭橥了一篇文章，该文章提出了深层网络演习中梯度消逝问题的办理方案：无监督预演习对权值进行初始化+有监督演习微调。
这个方案的提出，为基于ANN的深度学习（DL:Deep Learning）供应了可能性。

造成梯度消逝的一个紧张缘故原由便是激活函数Sigmoid。
Sigmoid的导数的取值范围在0~0.25之间，初始化的网络权值常日都小于1，当层数增多时，小于0的值不断相乘，末了导致梯度消逝的情形涌现。
因此办理梯度消逝的一个办法是更换激活函数。
2011年，ReLU激活函数被提出，该激活函数能够有效地抑制梯度消逝问题。

2011年以来，微软首次将DL运用在语音识别上，取得了重大打破。
微软研究院和Google的语音识别研究职员先后采取深度神经网络（DNN）技能降落语音识别缺点率20％~30％，是语音识别领域十多年来最大的打破性进展，人工神经网络终于证明了自己的实用代价。

深度学习爆发

2012年，Hinton课题组为了证明深度学习的潜力，首次参加了ImageNet图像识别比赛，其构建的卷积神经网络（CNN）模型AlexNet一举独占鳌头。
深度学习算法在世界大赛的脱颖而出，也再一次吸引了学术界和工业界对付深度学习领域的关注。

通过ImageNet图像识别比赛，DL的网络构造、演习方法、GPU硬件的不断进步，匆匆使DNN在其他领域也在不断地征服沙场。

2014年，Facebook基于深度学习技能的DeepFace项目，在人脸识别方面的准确率已经能达到97%以上，跟人类识别的准确率险些没有差别。

2016年，随着谷歌旗下Deepmind公司基于深度学习开拓的AlphaGo以4:1的比分降服了国际顶尖围棋高手李世石，深度学习的热度一时无两。
后来，AlphaGo又接连和浩瀚天下级围棋高手过招，均取得了完胜。

AlphaGo降服李世石，再次证明了深度学习的能力

正是由于DL在理论上的成功以及GPU硬件的发展，DL在工程实践上开始证明代价，催生了一批以人工智能（机器视觉为主）的科技公司，比如海内耳熟能详的AI四小龙：商汤、云从、依图和旷世，都有将AI技能运用于实际的落地案例。

从DNN到多样化的构造

全连接DNN

如上图所示，全连接DNN的构造里相邻两层的神经元之间都能够形成连接，从而导致参数数量膨胀。
这不仅随意马虎过拟合，而且极随意马虎陷入局部最优。

由于图像中存在固有的局部模式（如人脸中的眼睛、鼻子、嘴巴等），以是将图像处理和神经网络结合引出卷积神经网络CNN。
CNN是通过卷积核将相邻层进行链接，大幅降落了输入层到隐蔽层的参数。