你应该知道的5种回归类型及其属性!_线性_变量
在这篇文章中,我们将谈论7种最常见的回归算法及其属性。我们很快就会创造,他们中的很多人都倾向于在某些类型的情形下以及某些类型的数据中运行良好。末了,他的文章会在你的回归工具箱中为你供应更多的工具,并为全体回归模型供应更多的洞察力!
线性回归
回归是一种技能,用于建模和剖析变量之间的关系,并且常常是它们如何贡献的办法,并与一起产生的特定结果干系。线性回归是指完备由线性变量组成的回归模型。从大略情形开始,单变量线性回归是一种用于利用线性模型(即线)来仿照单个输入自变量(特色变量)和输出因变量之间的关系的技能。
更一样平常的情形是多变量线性回归,个中为多个独立输入变量(特色变量)与输出因变量之间的关系创建模型。该模型保持线性,由于输出是输入变量的线性组合。我们可以对多变量线性回归建模如下:
Y = a_1 X_1 + a_2 X_2 + a_3 X_3 ......。 a_n X_n + b
个中a_n是系数,X_n是变量,b是偏差。正如我们所看到的,这个函数不包含任何非线性,以是它只适用于建模线性可分数据。这很随意马虎理解,由于我们只是利用系数权重a_n来加权每个特色变量X_n的主要性。我们利用随机梯度低落(SGD)来确定这些权重a_n和偏差b。查看下面的插图以得到更多视觉效果!
解释梯度低落如何找到线性回归的最佳参数
关于线性回归的几个关键点:
·建模快速大略,特殊适用于要建模的关系不是非常繁芜且数据量不大的情形。
·非常直不雅观的理解和解释。
·线性回归对非常值非常敏感。
多项式回归
当我们要创建适宜处理非线性可分数据的模型时,我们须要利用多项式回归。在这种回归技能中,最佳拟合线不是一条直线,这是一条符合数据点的曲线。对付一个多项式回归,一些自变量的功效大于1。例如,我们可以有这样的东西:
Y = a_1 X_1 +(a_2)2 X_2 +(a_3)4 X_3 ......。 a_n X_n + b
我们可以有一些变量有指数,其他变量没有,还可以为每个变量选择我们想要的确切指数。然而,选择每个变量的确切指数自然须要一些关于数据若何与输出干系的知识。请参阅下面的图表,以便直不雅观的比较线性回归和多项式回归。
线性与多项式回归的数据是非线性可分的。
关于多项式回归的几个要点:
能够仿照非线性可分的数据,线性回归不能做到这一点。它总体上更灵巧,可以仿照一些相称繁芜的关系。
完备掌握要素变量的建模(要设置指数)。
须要仔细的设计。须要一些数据的知识才能选择最佳指数。
如果指数选择不当,随意马虎过度拟合。
岭回归
标准线性或多项式回归在特色变量之间存在高共线性的情形下将失落败。共线性是自变量之间存在近似线性关系。高度共线性的存在可以通过几种不同的办法来确定:
只管从理论上讲,该变量该当与Y高度干系,但回归系数并不显著。
添加或删除X特色变量时,回归系数会发生显著变革。
你的X特色变量具有较高的成对干系性(检讨干系矩阵)。
我们可以首先看一下标准线性回归的优化函数,以得到有关岭回归如何帮助的一些见地:
min || Xw - y ||²
个中X表示特色变量,w表示权重,y表示地面实况。岭回归是一种补救方法,旨在缓解模型中回归预测变量之间的共线性。共线性是一种征象,个中多元回归模型中的一个特色变量可以由其他人以相称程度的准确度线性预测。由于特色变量如此干系,以是终极回归模型在其近似方面受到严格限定,即具有高方差。
为了缓解这个问题,岭回归为变量增加了一个小的平方偏差因子:
min || Xw - y ||²+ z || w ||²
这种平方偏差因子将特色变量系数从该刚度中剔除,向模型中引入少量偏差,但大大减少了方差。
关于岭回归的几个关键点:
这种回归的假设与最小平方回归相同。
它缩小了系数的值,但没有达到零,这表明没有特色选择功能
套索回归
套索回归与岭回归非常相似,由于两种技能都有相同的条件。我们再次在回归优化函数中增加一个偏置项,以减少共线性的影响,从而减少模型方差。但是,不是像岭回归那样利用平方偏差,而是利用绝对值偏差的套索:
min || Xw - y ||²+ z || w ||
岭回归和套索回归之间存在一些差异,基本上可以归结为L2和L1正则化的性子差异:
内置特色选择:常常被提及为L1范数的一个有用属性,而L2范数不具有这种特性。这实际上是L1范数的结果,其方向于产生稀疏系数。例如,假设模型有100个系数,但个中只有10个系数具有非零系数,这实际上是说“其他90个预测变量对预测目标值没有用处”。 L2范数产生非稀疏系数,以是没有这个属性。因此,可以说套索回归做了一种“参数选择”形式,由于未当选中的特色变量将具有总权重0。
稀疏性:指矩阵(或向量)中只有极少数条款非零。 L1范数具有产生具有零值或具有很小的大系数的非常小值的许多系数的属性。这与套索回归实行一种特色选择的前一点干系。
打算效率:L1范数没有解析解,但L2范数有。这使得L2范数可以通过打算有效地进行打算。然而,L1范数办理方案确实具有稀疏性,这使得它可以与稀疏算法一起利用,这使得打算的打算效率更高。
ElasticNet回归
ElasticNet是套索和岭回归技能的稠浊体。它既利用了L1和L2正则化,也利用了两种技能的效果:
min || Xw - y ||²+ z_1 || w || + z_2 || w ||²
在套索和岭回归之间进行权衡的一个实际上风是,它许可Elastic-Net回归在旋转的情形下继续岭回归的一些稳定性。
关于ElasticNet回归的几个关键点:
它鼓励在高度干系变量的情形下的群体效应,而不是像套索那样将个中一些置零。
对所选变量的数量没有限定。
结论
以上是为大家先容的5种常见类型的回归及其属性。所有这些回归正则化方法(Lasso,Ridge和ElasticNet)在数据集中的变量之间具有高维度和多重共线性的情形下运行良好。希望这篇文章能够在一定程度上帮助到你。
本文系作者个人观点,不代表本站立场,转载请注明出处!