机械进修算法系列（一）：logistic回归_模子_正则

2024-09-17 16:40:39 智能问答

个中，μ为位置参数，γ为形状参数

机械进修算法系列（一）：logistic回归_模子_正则智能问答

曲线在中央附近增长速率较快，并且γ值越小，曲线在中央附近的增长速率越快。

特殊的，当μ=0，γ=1的时候便是sigmoid函数。

二、二项Logistic回归事理

二项Logistic回归模型时一种分类模型，由条件概率分布P(Y|X)表示，随机变量Y取0或1。

定义二项logistic回归模型的条件分布如下：

个中x∈Rn是输入，Y∈{0,1}是输出，W∈Rn和b∈R是参数，w称为权重，b称为偏置。

有时为了方便会将权重向量和输入向量进行扩充：

w = (w1, w2, …, wn, b)T， x = (x1, x2, …, xn, 1)T

以是，logistic回归模型变为：

得到概率之后，我们可以通过设定一个阈值将样本分成两类。
如：阈值为0.5的时候，昔时夜于0.5则为一类，小于0.5为另一类。

三、参数估计

有了以上的模型，我们就须要对模型中的参数w求出来。
我们可以利用极大似然估计法估计模型的参数。

设：

似然函数为：

对数似然函数：

对L(w)求极大值，得到w的估计值。
常日采取梯度低落法或拟牛顿法求解参数w。

四、 Logistic回归的正则化

正则化是为理解决过拟合问题。
分为L1和L2正则化。
目标函数中加入正则化，即加入模型繁芜性的评估。
正则化符合奥卡姆剃刀事理，即：在所有可能的模型中，能够很好的阐明已知数据并且十分大略的模型才是最好的模型。

加入正则化后，模型的目标函数变为：

P表示范数，p=1为L1正则化，p=2为L2正则化

L1正则化：向量中各元素绝对值的和。
关键在于能够对特色进行自动选择，稀疏参数可以减少非必要的特色引入噪声。

L2正则化：向量中个元素的平方和，L2会使得各元素尽可能小，但都不为零。

左边为L1正则化，右边为L2正则化。
假设权重参数w只有二维w1和w2。
L1为各元素绝对值和，即|w1|+|w2| = C，则得到的形状为棱形，L2为(w1)^2+(w2)^2 = C，则形状为圆。
很随意马虎可以创造L1更随意马虎在顶点处相切，L2则不随意马虎在顶点处相切。
顶点处则个中一个参数为0，这便是为什么L1会使得参数稀疏的缘故原由。

五、 Logistic回归和线性回归差异

1. Logistic回归在线性回归的实数输出范围加上sigmoid函数，将输出值收敛在0~1之间。
其目标函数也因此从差平方和函数变为对数丢失函数。

2. 逻辑回归和线性回归都是广义的线性回归，线性回归是利用最小二乘法优化目标函数，而逻辑回归是利用梯度低落或者拟牛顿法。

3. 线性回归在全体实数域范围内进行预测，敏感度同等，而分类范围须要在[0,1]。
逻辑回归是一种减少预测范围，将预测值限定为[0,1]间的一种回归模型。
因而对付二分类问题，逻辑回归的鲁棒性更好。

4. 逻辑回归因此线性回归为理论支持的，但线性回归模型无法做到sigmoid的非线性形式。
Sigmoid可以轻松处理0/1分类问题。

六、为什么Logistic回归的输入特色一样平常都是离散化而不是连续的

1. 离散特色随意马虎增加和减少，使得模型随意马虎迭代。

2. 离散特色的内积运算速率快，打算结果方便存储。

3. 对非常值不敏感，比如一个特色是年事>30为1，否则为0，如果特色没有离散化。
一个非常数据300岁会给模型带来很大的滋扰。

4. 逻辑回归是广义线性模型，表达能力受限。
单变量离散化为N个后，每个变量都有单独的权重，相称于为模型引入了非线性，能够提升模型的表达能力，加大拟合。

5. 特色离散化后可以进行特色交叉，由M+N变量变为MN个变量，进一步引入非线性，提升表达能力。

6. 特色离散化后，模型会更加稳定。
比如对用户年事离散化，将20~30作为一个区间，这样不会由于一个用户年事大了一岁就变成完备不同的人了，当然处于区间相邻处的样本就刚好相反，以是怎么划分区间是们学问。