这个模型是对生物神经元的一个建模。
当时是希望能够用打算机来仿照人的神经元反应的过程,该模型将神经元简化为了三个过程:输入旗子暗记线性加权、求和和非线性激活(阈值法)。
人工神经网络(ANN: Artificial Neural Network)以此为开端,不过这个模型直到1958年,才开始有了实用代价。

人工智能成长简史——从理论走向应用_神经收集_梯度 云服务

M-P人工神经元模型

1958年,打算机科学家罗森布拉特( Rosenblatt)提出了一个由两层神经元组成的神经网络,称之为“感知器”(Perceptrons),第一次将M-P模型用于机器学习的分类(classification)问题。

人工智能先驱Marvin Minsky

1969年,美国数学家及人工智能先驱 Marvin Minsky 在其著作中证明了感知器实质上是一种线性模型(linear model),只能处理线性分类问题,就连最大略的XOR(异或)问题都无法精确分类。
由此,神经网络的研究也陷入了将近20年的结束,进入了第一个寒冬期。

发展阶段(1986-1998)

1986年,神经网络之父 Geoffrey Hinton 发明了适用于多层感知器(MLP)的BP(Back Propagation)算法,并采取Sigmoid函数进行非线性映射,有效办理了非线性分类和学习的问题。
这种方法引起了神经网络的第二次热潮。

Sigmoid函数

多层感知器:至少有一个隐蔽层

当神经网络的规模增大时,利用BP算法会涌现“梯度消逝”的问题。
当梯度消逝发生时,靠近于输出层的隐蔽层由于其梯度相对正常,以是权值更新时也就相对正常,但是当越靠近输入层时,由于梯度消逝征象,会导致靠近输入层的隐蔽层权值更新缓慢或者更新结束。

梯度消逝问题限定了ANN构造的层数(规模)

90年代中期,以SVM为代表的其它浅层机器学习算法被提出,并在分类、回归问题上均取得了很好的效果,而ANN则相形见绌,人工神经网络的发展再次进入瓶颈,迎来了第二个寒冬期。

深度学习开始(2006-2012)

2006年,Geoffrey Hinton 和他的学生 Ruslan Salakhutdinov 在顶尖学术刊物《科学》上揭橥了一篇文章,该文章提出了深层网络演习中梯度消逝问题的办理方案:无监督预演习对权值进行初始化+有监督演习微调。
这个方案的提出,为基于ANN的深度学习(DL:Deep Learning)供应了可能性。

造成梯度消逝的一个紧张缘故原由便是激活函数Sigmoid。
Sigmoid的导数的取值范围在0~0.25之间,初始化的网络权值常日都小于1,当层数增多时,小于0的值不断相乘,末了导致梯度消逝的情形涌现。
因此办理梯度消逝的一个办法是更换激活函数。
2011年,ReLU激活函数被提出,该激活函数能够有效地抑制梯度消逝问题。

2011年以来,微软首次将DL运用在语音识别上,取得了重大打破。
微软研究院和Google的语音识别研究职员先后采取深度神经网络(DNN)技能降落语音识别缺点率20%~30%,是语音识别领域十多年来最大的打破性进展,人工神经网络终于证明了自己的实用代价。

深度学习爆发

2012年,Hinton课题组为了证明深度学习的潜力,首次参加了ImageNet图像识别比赛,其构建的卷积神经网络(CNN)模型AlexNet一举独占鳌头。
深度学习算法在世界大赛的脱颖而出,也再一次吸引了学术界和工业界对付深度学习领域的关注。

通过ImageNet图像识别比赛,DL的网络构造、演习方法、GPU硬件的不断进步,匆匆使DNN在其他领域也在不断地征服沙场。

2014年,Facebook基于深度学习技能的DeepFace项目,在人脸识别方面的准确率已经能达到97%以上,跟人类识别的准确率险些没有差别。

2016年,随着谷歌旗下Deepmind公司基于深度学习开拓的AlphaGo以4:1的比分降服了国际顶尖围棋高手李世石,深度学习的热度一时无两。
后来,AlphaGo又接连和浩瀚天下级围棋高手过招,均取得了完胜。

AlphaGo降服李世石,再次证明了深度学习的能力

正是由于DL在理论上的成功以及GPU硬件的发展,DL在工程实践上开始证明代价,催生了一批以人工智能(机器视觉为主)的科技公司,比如海内耳熟能详的AI四小龙:商汤、云从、依图和旷世,都有将AI技能运用于实际的落地案例。

从DNN到多样化的构造

全连接DNN

如上图所示,全连接DNN的构造里相邻两层的神经元之间都能够形成连接,从而导致参数数量膨胀。
这不仅随意马虎过拟合,而且极随意马虎陷入局部最优。

由于图像中存在固有的局部模式(如人脸中的眼睛、鼻子、嘴巴等),以是将图像处理和神经网络结合引出卷积神经网络CNN。
CNN是通过卷积核将相邻层进行链接,大幅降落了输入层到隐蔽层的参数。

其余DNN无法对韶光序列上的变革进行建模,而样本的韶光顺序对付自然措辞处理、语音识别、手写体识别等运用非常主要。
为了适应这种需求,就涌现了另一种神经网络构造:循环神经网络RNN。

在RNN中,神经元的输出可以不才一个时候浸染到自身,即第i层神经元在m时候的输入,除了(i-1)层神经元在该时候的输出外,还包括其自身在(m-1)时候的输出。

神经元按照韶光展开

RNN可以算作一个在韶光上通报的神经网络,它的深度是韶光的长度,“梯度消逝”征象又要涌现了,只不过这次发生在韶光轴上。

为办理上述永劫依赖问题,又提出了LSTM(是非时影象单元),通过神经元的门开关实现韶光上的影象功能,并防止梯度消逝。

LSTM

除了RNN和LSTM以外,还有很多网络构造可以用于序列旗子暗记剖析中,比如双向RNN、双向LSTM,这些构造可以同时利用历史和未来的信息。
在实际运用中,我们每每不会利用单一的构造,常常稠浊着利用。

我会持续更新关于物联网、云原生以及数字科技方面的文章,用大略的措辞描述繁芜的技能,也会偶尔揭橥一下对IT家当的意见,欢迎大家关注,感激。