人工智能的实质是创造事物之间的规律,然后对未来作出预测,一样平常方法是建立模型、求解模型。

人工智能需要哪些高级的数学常识?_距离_模子 计算机

“线性代数”、“概率论”、“优化论”这三门数学课程,前两门是建模,后一门是求解,是学习人工智能的根本。

线性代数

线性代数是学习人工智能过程中必须节制的知识。
线性代数中我们最熟习的便是联立方程式了,而线性代数的起源便是为了求解联立方程式。
只是随着研究的深入,人们创造它还有更广阔的用场。

数据科学中,常常须要知道个体间差异的大小,进而评价个体的相似性和种别。
衡量个体差异的方法有很多,有的方法是从间隔的角度度量,两个个体之间的间隔越近就越相似,间隔越远就越不相似;有的方法是从相似的角度度量。

用间隔衡量个体之间的差异时,最常用的间隔便是欧氏间隔,它和我们中学时学过的两点间间隔一样,只不过现在的点是多维空间上的点了。

欧氏间隔打算公式:

对应的Python代码如下:

import numpy as npusers=['u1','u2','u3']rating_matrix=np.array([4,3,0,0,5,0],[5,0,4,0,4,0],[4,0,5,3,4,0])#根据公式打算用户u1和u2的间隔d1=np.sqrt(np.sum(np.square(rating_matrix[0,:]-rating_matrix[1,:])))#打算结果d15.196152422706632

除了利用间隔,还可以利用相似度来衡量用户的相似性。
常用的相似度是夹角余弦相似度。

两个向量a、b的夹角余弦公式:

可以用下面的代码打算两个向量的夹角余弦相似度:

def mod(vec):#打算向量的模x=np.sum(vec2)return x5def sim(vec1,vec2):#打算两个向量的夹角余弦值s=np.dot(vec1,vec2)/mod(vec1)/mod(vec2)return s#打算前两个用户的相似度cos_sim=sim(rating_matrix[0],rating_matrix[1])#打算结果为0.749268649265355

夹角余弦值越靠近1代表越相似。

Python中很多工具包已经实现了绝大多数间隔和相似度的打算,可以直接调用。

向量运算、矩阵运算、向量空间模型、多项式回归、岭回归、Lasso回归、矩阵分解等都属于线性代数的范畴。

除了利用数学公式以外,还可以利用概率进行建模。

概率论

“概率统计”是统计学习中主要的根本课程,由于机器学习很多时候便是在处理事务的不愿定性。

最大似然估计

最大似然思想是频率学派利用的概率建模思想根本,它是基于最大似然事理提出的。

最大似然事理,本色因此下两点:

概率大的事宜在一次试验中更随意马虎发生;在一次试验中发生了的事宜,其概率该当最大。

在用概率思想对数据建模时,常日会假设这些数据是从某一种分布中随机采样得到的,比如正态分布。
但是我们并不知道这个正态分布是什么样的,均值和方差两个参数未知,“模型已定,参数未知”。
这时就可以用最大似然的思想建模,终极得到对模型参数的估计。

总之,最大似然估计的目标是找出一组参数,使得模型天生不雅观测数据的概率最大即可。

除此之外,还可以用贝叶斯方法和采样的方法估计参数。

贝叶斯建模

人们在研究事宜的统计规律时,会用随机变量对一个随机征象进行量化。
如果两个随机变量不独立,就可以得到著名的贝叶斯公式:

贝叶斯公式之以是非常主要,是由于在机器学习中建的模型可以表示成 P(H\D)。
D代表拥有的数据,而H则代表对数据中隐蔽的模型做出的假设。
根据贝叶斯公式就有:

贝叶斯公式从形式上看彷佛很大略,而且打算也不繁芜,但它是贝叶斯学派的法宝。
它成功地引入了先验知识,对频率学派的最大似然估计法进行了改进。

业界大牛曾这样评价贝叶斯建模方法:“人工智能领域涌现过3个最主要的进展:深度神经网络、贝叶斯概率图模型和统计学习理论。

朴素贝叶斯的一个成熟运用是垃圾邮件分类问题,网上有很多案例,大家可以学习。

优化

模型建立起来后,如何求解这个模型属于优化的范畴。
优化,便是在无法得到问题的解析解的时候,退而求其次找到一个最优解。
当然,须要提前定义好什么是最优,就彷佛足球比赛之前得先定义好比赛规则一样。

常日的做法是想办法布局一个丢失函数,然后找到丢失函数的最小值进行求解。

梯度低落算法是最经典的求解算法,除此之外还有逻辑回归算法和凸优化等。

————

以上数学知识是入门人工智能领域必知必会的数学知识,只有打好根本,才能筑牢“上层建筑”。

参考资料:《人工智能根本——数学知识》,作者:张晓明。