转型AI产品经理（3）：模型评估篇_模子_查准率

2024-12-11 08:11:14 文字写作

作为机器学习的一种模型，它紧张是通过学习从输入数据到种别标签之间的映射关系，以便在给定新的输入数据时能够准确地预测其所属的种别，也便是将数据集中的样本分为二个类别的模型。

转型AI产品经理（3）：模型评估篇_模子_查准率文字写作

常见的二分类模型包括：

逻辑回归：逻辑回归虽然名字中带有“回归”，但实际上是一种分类算法，紧张用于办理二分类问题。
它通过sigmoid函数将线性回归模型的输出映射到[0,1]之间，表示样本属于某一类别的概率。
决策树：决策树通过一系列的决策节点对数据进行分类。
每个决策节点基于输入特色的某个属性进行划分，直到达到叶子节点，即终极的种别标签。
随机森林：一种集成学习方法，通过组合多个决策树来进行分类。
它在演习过程中引入了随机性，使得每棵决策树都略有不同，从而减少过拟合的风险。
（过拟合就像是一个学生在考试前只记住了特定题目的答案，但是没有理解背后的观点，以是当考试题目稍有不同时就不知道怎么回答了）支持向量机（SVM）：支持向量机通过找到能够最大化种别间间隔的超平面来进行分类。
它在高维空间中探求一个最优的分割超平面，使得不同类别的样本能够被清晰地分开。

以上只是二分类模型的一部分举例，实际还有很多其他的算法，要根据自身的业务场景来选择得当的分类模型。
对付二分类模型，我们常用的评价方法紧张有：

一、稠浊矩阵

它以矩阵形式展示模型预测结果与真实标签之间的对应关系。
稠浊矩阵的行表示模型预测的种别，列表示实际的种别。
常日，稠浊矩阵是一个二维矩阵，但在多分类问题中，可能会有更多的行和列。

范例的二分类稠浊矩阵如下图：

TP（True Positive）表示真正例即实际和预测都是正的；TN（True Negative）表示真负例即实际和预测都是负的；FP（False Positive）表示假正例即预测是正的，实际是负的；FN（False Negative）表示假负例即预测是负的，实际是正的。

Positive表示正例，Negative表示负例，正例和负例的定义取决于详细的问题和任务。

常日情形下，正例表示我们感兴趣的事宜或目标种别，而负例表示其他种别或不感兴趣的事宜。
比如，在垃圾邮件检测的问题中，垃圾邮件可以被视为正例，非垃圾邮件则是负例；而在反敲诈系统中，敲诈交易可能被视为正例，而合法交易则是负例。

对付一个空想的分类器，自然是希望分类器完美地完成了分类任务，没有任何缺点，但实际情形是很难达到完备精确的，以是就须要利用干系的评价指标，紧张包括：

准确率（Accuracy）：准确率表示模型精确预测的样本数占总样本数的比例，打算公式是精确分类的样本数与总样本数之比，表示为Accuracy=（TP+TN）/总样本数。
查准率（Precision）：也有叫精准率，它衡量的是模型预测为正例的样本中，真正例的比例，即预测为正例的样本中有多少是真正例，表示为Precision=TP/（TP+FP）。
召回率（Recall）：也有叫查全率，它衡量的是真实的正例中，模型成功预测为正例的比例，即真实的正例中有多少被模型预测为正例。
其打算公式为：Recall=TP/（TP+FN）特异度（Specificity）：特异度衡量的是真实的负例中，模型成功预测为负例的比例，即真实的负例中有多少被模型预测为负例，其打算公式为：Specificity=TN/(TN+FP)F1分数：查准率和召回率的调和均匀值，综合衡量模型的性能。
一样平常情形下查准率和召回率呈反比关系，即查准率高、召回率就低；查准率低，召回率就高，那么就须要一个指标来综合评估模型的查准率和召回率达到平衡的程度，可以用F1来衡量，其打算公式为：F1=2×Precision×Recall/（Precision+Recall），F1分数的取值范围从0到1，高F1分数意味着模型在保持查准率和召回率之间保持良好的平衡，0表示模型性能最差，F1分数越大常日表示模型的性能越好，1表示模型性能最佳。
ROC曲线：ROC 曲线可以帮助我们在查准率和召回率之间做出权衡。
它以真正例率（True Positive Rate，TPR）为纵轴，假正例率（False Positive Rate，FPR）为横轴，通过改变分类器的决策阈值，绘制出不同阈值下的TPR和FPR，从而形成一个曲线。
曲线越靠近左上角，表示模型的性能越好。
AUC（ROC曲线下面积）：它是ROC曲线下的面积，用于衡量分类模型的整体性能。
AUC 的取值范围在 0 到 1 之间，值越大表示模型性能越好。
AUC 值为 0.5 表示模型的预测效果与随机预测相称（即模型没有区分能力），AUC>0.5表示模型有一定的区分能力，当AUC 值靠近于 1 表示模型具有很好的预测能力。

这些指标各有侧重。

在模型开拓的早期阶段，可以利用稠浊矩阵来直不雅观地理解模型的分类表现。
准确率是评估模型整体性能的常用指标，它关注整体预测的准确性，但在样本不平衡的情形下，准确率可能会受到影响。

查准率和召回率则更加看重不同类别的预测准确性，可以供应更详细的信息，可以根据详细的运用处景、业务需求调度查准率和召回率的权重。

在样本不平衡的情形下，ROC 曲线和 AUC 可以更好地评估模型的性能。
总的来说，模型评估不仅仅依赖于单一指标，而要根据业务的特点，结合多个指标进行综合评价。

二、KS值

常见于金融风控领域，它衡量的是风险区分能力。
KS值越大，表示模型的风险区分能力越强。

KS 值的打算方法是首先按照模型预测得分对样本进行排序，然后打算累积正例和累积负例的比例，末了打算它们之间的最大差值。

在实际操作中，可以根据 KS 值选择最佳的预测阈值，以平衡查准率和召回率。

三、GINI系数

不同于经济学中的基尼系数（衡量收入分配或财富分配不平等程度的统计指标），模型评估的GINI系数是一个用于衡量模型预测结果的不平等程度的指标，表示模型随机挑选出正例的概率比随机情形下提高了多少的指标，常日用在信用评分中比较常见。

GINI系数的取值范围从0到1，个中0表示模型完备没有判别力（即无法区分正负样本），1表示模型具有完美的判别力。

四、IV值

IV值衡量的是变量的预测能力，它基于变量的分箱打算每个分箱中正例和负例的比例，然后根据这些比例打算每个分箱的信息值，末了将所有分箱的信息值进行加权求和得到 IV 值。

一样平常来说，IV 值越高，表示变量对目标变量的预测能力越强。

在金融风控领域，KS 值、GINI 系数和 IV 值是常用的评估指标。
在影象这些指标数值大小代表的好坏时，我们可以看出，除了ROC曲线是“曲线越靠近左上角，表示模型的性能越好”之外，其他的指标都是“越大越好”。

此外，除了这些评估指标，我们还须要关注以下一些维度，才能更好地评估模型。

1）鲁棒性（稳定性）: 它是指一个模型在面临内部参数变革、外部环境扰动、输入数据非常时，仍能保持稳定性能、正常运作的能力。
鲁棒性较高的模型能够在面对未知的数据时保持稳定的表现，不会由于小的数据变革而导致性能的大幅度低落。
如果模型的其他指标都很好，但是一旦数据发生一定程度的变革，模型的预测能力就大大降落，这种情形则不是我们乐于见到的情形。
以是，我们在评估模型好坏或是否可以停滞演习时，还须要考虑模型是否能在真实环境中可靠地事情，并且能够有效地应对各种非常情形。

在评估鲁棒性时，常日我们可以采取 “对抗性测试，即向模型输入有滋扰性的样本或者gong击性的数据来测试“、”噪声测试，即向模型输入具有随机噪声的数据，不雅观察模型对噪声的敏感程度“，如果模型能够很好的处理这些非常数据，则解释模型具有较强的鲁棒性。

2）泛化能力：它是指模型在面对未曾在演习阶段碰着过的全新数据时，能够精确预测其输出或者分类的能力。

泛化能力反响了模型从已知数据中学习到的规律能否有效地运用到未知数据上。
想要泛化能力高，须要在供应演习的数据集时就要开始考量数据的覆盖面，代表性、干系性，如果一开始演习的数据集就有一定的侧重性（又不是与目标变量干系的主要特色），不符合实际的业务场景，那就会导致模型的过拟合程度较高，从而导致泛化能力差。

在评估模型的泛化能力时，常日我们可以采取“交叉验证，即通过将数据集分成多个子集，在不同子集上演习和测试模型，从而得到更准确的泛化性能评估结果“，”外部验证，即利用独立于演习数据的外部数据集来验证模型的泛化能力“。

总的来说，决定模型泛化能力的成分是模型的繁芜度、演习数据的质量和数量，以及数据分布与目标变量之间的关系等。

在演习和评估模型时，须要综合考虑这些成分，以确保模型能够在未见过的数据上得到良好的表现。

3）可阐明性：它指的是模型能够以易于理解的办法展现其内在逻辑、事情事理和决策依据的能力。
可阐明性关乎模型的透明度和清晰度，让用户能够明白模型为何做出某种预测或决策，这对付信赖模型以及优化模型性能等方面至关主要。

在可阐明性评估时，我们可以通过“特色主要性剖析，即模型能够明确指出哪些特色对预测结果的影响大”，“可视化剖析，即用可视化的方法来展示模型决策的过程和结果，利用户能够直不雅观地理解模型的预测思路或事理”。

在实际的操作中，模型的可阐明性都相对来说较弱，但是在B端产品中，可阐明性又是产品经理寻衅较大的一点，客户购买你的产品，他们无法感知到你的AI能力，你除了须要先容你的演习数据包含了多大量级的数据，演习数据来源如何符合他们的业务需求之外，他们常日只能得到一个模型输出的结果。
至于结果是怎么来的，他们只能通过你先容的产品是如何预测的事理来感知你的AI产品是否知足他们的需求。

常日，产品经理要在这一部分和算法团队进行深度谈论，将算法中的事理摸熟后，转化为客户能够理解并认可的“模型阐明”，对事理深入浅出的阐明功夫须要练习，可以跟公司内部的职员，如发卖、客户成功部、客服部等先阐明看看，根据他们不懂的地方再修正。

对模型的阐明即要随意马虎被理解，又要让客户以为模型的事情事理或思路符合他们的场景需求，这样才能让客户信赖你的AI产品能力。

模型的阐明只有便于非技能职员理解，让公司内部的职员都能准确表达出来，才会在客户讯问或质疑模型的可靠性时得到满意的答复，这一点相对付C端产品来说，会比较影响客户的留存率，须要重视。

总的来说，对付模型的评估，不是单靠一项指标来评估的，要根据当前业务的阶段，模型演习的时长、本钱，演习数据的网络、更新等综合来评估，是一个找到当前最适用的评估方法的“平衡”过程。
关键还是要看业务的详细场景是什么，用户目前最在意的特色、指标是什么，最具性价比的方案等来综合取舍！

如果你也有模型评估方面更好的思路，欢迎分享互换！

本文由 @养心进行时原创发布于大家都是产品经理，未经容许，禁止转载

题图来自 Unsplash，基于 CC0 协议

该文不雅观点仅代表作者本人，大家都是产品经理平台仅供应信息存储空间做事。