2024年6月,美国安全与新兴技能中央(CSET)发布了文章《人工智能安全的关键观点:机器学习中可靠的不愿定性量化方法》(Key Concepts in AI Safety:Reliable Uncertainty Quantification in Machine Learning)。
人工智能安全是机器学习研究的一个领域,其旨在找出机器学习系统中意外行为的缘故原由,并开拓工具确保这些系统能安全可靠地运行。
事实上,让机器学习系统“知道自己不知道什么”在技能界被称为“不愿定性量化”(uncertainty quantification),这是机器学习领域一个开放且被广泛研究的问题。
本文先容了不愿定性量化是如何事情的,为什么困难,以及其未来的前景,以期为读者磋商人工智能安全的关键观点供应参考。

美国安然与新兴技能中央宣告:《人工智能安然的关键概念:机械进修中靠得住的不愿定性量化方法》_不肯_模子 绘影字幕

一、介 绍

过去十年间机器学习研究不断发展,催生出一些能力出众但依旧不可靠的系统,例如OpenAI开拓的谈天机器人ChatGPT。
自该系统于2022年11月发布后,与它进行交互的用户很快创造,虽然它能够闇练地找出编程代码里的缺点,还能撰写文章,但也可能被大略的任务难住。
比如,有一段对话显示,ChatGPT先是声称最快的海洋哺乳动物是游隼,接着改说成旗鱼,末了又回到猎鹰,但很明显,这几个选项都不是哺乳动物。
这种性能的不屈衡是深度学习系统的特点,而深度学习系统是近年来在人工智能领域取得最大进展的系统,这给它们在现实环境中的支配带来了重大寻衅。

处理这个问题的一种比较直不雅观的办法是构建“知道自己不知道什么”的机器学习系统,也便是说,系统能够识别并阐明自己更随意马虎犯错的状况。
比如,谈天机器人可以在给出答案的同时显示信心得分,或者自动驾驶汽车在创造自己处于无法处理的场景时发出警报。
这样一来,系统表现良好时可能有用,表现不佳时也不会造成危害。
这对付在各种环境中利用的人工智能系统特殊有用,由于这些系统很有可能会碰到和它们演习及测试时不同的场景。
然而,设计出能够识别自身局限性的机器学习系统,比想起来要困难得多。

二、可靠的不愿定性量化的寻衅

原则上,我们想要构建的这种系统听起来很大略:一个机器学习模型,它常日会做出精确的预测,但它可以指出何时它的预测更有可能是禁绝确的。
空想情形下,这样的模型既不会太频繁也不会较少表明高水平的不愿定性。
一个别系在它实际上可以很好地处理的情形下不断地表示不自傲,那么他的浸染就不大,但如果系统有时在实际上即将失落败的时候没有表示不愿定性,那么这就违背了试图首先量化不愿定性的目的。
专家们在这里用“校准”的观点来描述期望的行为:机器学习模型分配给给定预测的不愿定性水平,它的“预测不愿定性”该当被校准为预测实际上是禁绝确的概率。

(一)理解分布变革

建立一个能够在实验室中能够经由良好校准的预测不愿定性的系统较难实现,寻衅在于创建机器学习模型,使其能够在混乱的现实天下场景中可靠地量化不愿定性。

这一寻衅的根源在于一个被称为“分布偏移”(Distribution Shift)的观点。
这是指机器学习系统碰着的数据分布(即“数据类型”)从一种设置到另一种设置的变革办法。
例如,利用旧金山道路数据进行演习的自动驾驶汽车不太可能碰着雪,因此,如果在冬季将同一辆汽车支配在波士顿,它将碰着不同的数据分布(个中包括道路上的雪),这使其更有可能失落败。

分布变革很随意马虎非正式地描述,但很难检测、丈量或精确定义。
这是由于特殊难以预见和解释系统在实践中可能碰着的所有可能类型的分布偏移。
当一个特定的变革可以预测时——例如,如果在旧金山演习自动驾驶汽车的工程师操持在波士顿支配,并考虑到景象差异,那么管理起来就相对大略了。
然而,在大多数情形下,不可能提前知道支配在现实天下中的系统可能会碰着什么样的意外情形。

处理分布变革这一情形,让量化不愿定性变得困难,这与当代机器学习系统中更广泛的泛化问题相类似。
虽然能够在实验室里针对有限的数据点集去评估模型的准确性,然而却没有数学方面的担保能够确保模型在支配时依然能有良好的表现(即系统学习到的内容能够“泛化”到演习数据之外)。
同样,在不愿定性量化方面,也不存在这样的担保。

一个看似校准良好的模型未必能在与演习数据有显著差异的数据点上保持校准。
然而,只管存在大量有关模型如何出色地泛化到未曾见过的例子的履历和理论文献,但对付模型有效识别其不愿定性应处于较高水平的能力的研究却相对较少,这致使“不愿定性泛化”成为机器学习研究中最为主要却相对未被充分探究的领域之一。

(二)准确地表征不愿定性

用于读取邮政编码的图像分类器先吸罢手写数字的图像,然后为十个可能的输出中的每一个都分配一个分数(分别对应于图像中的数字“0”“1”“2”等等)。
得分最高的输出意味着分类器认为其最有可能是涌如今图像中的数字。

然而,这些分数常日并非模型不愿定性的有效指标,缘故原由如下:其一,它们是演习过程的产物,该过程旨在优化模型以产生准确的输出,而非校准的概率;因此,没有特殊的情由相信,99.9%的得分比95%的得分更可靠地对应着更高的输出精确率。
其二,如此设计的系统没办法表达“以上皆非”。
是日然而然地引出了一个问题:为何不能添加一个“以上皆非”的选项?缘故原由很大略:模型是从数据中学习的,鉴于上述提到的分布转移的寻衅,人工智能开拓职员常日没有能够代表“以上皆非”选项所适用的广泛可能性的数据。
这使得演习一个能够始终将输入识别为有显著不同的模型变得十分困难。

总而言之,致使不愿定性量化困难的核心问题在于,在现实天下的浩瀚场景中,我们无法清晰地阐述模型可能须要应对的每一类情形,也无法针对每一类情形做好充足准备。
我们的目的是找到一种办法,让系统能够识别出其可能失落败的环境。
然而,由于无法让系统遭遇每一种可能表现欠佳的状况,以是也就不可能预先验证系统在新的、未经测试的条件下是否会恰当地预估其表现良好的几率。

三、现有的不愿定性量化的方法

不愿定性量化的紧张寻衅是开拓能够准确可靠地表达其预测精确可能性的模型。
为实现这一目标,人们开拓了多种方法。
一些方法紧张将不愿定性量化视为工程寻衅,可以通过量身定制的算法和更多的演习数据来办理。
另一些方法则试图利用数学根本更强的技能,这些技能在理论上可以供应无懈可击的担保,即模型可以很好地量化自身的不愿定性。
然而,目前还不可能在不该用不切实际的假设的情形下供应这样的数学担保。
相反,我们所能做的最好的事情,便是在精心设计的履历测试中,开拓出能够很好地量化不愿定性的模型。
当代机器学习中的不愿定性量化方法可分为四类:确定性方法、模型凑集、共形预测、贝叶斯推理。
这些方法各有利弊,有些能供应数学担保,有些则在履历测试中表现精良,每种技能的详细先容如下:

确定性方法

(Deterministic Methods)

确定性方法的事情事理是在演习过程中明确鼓励模型在某些输入示例上表现出高度不愿定性。
例如,研究职员可能先在一个数据集上演习模型,然后引入另一个数据集,期望模型在未演习过的数据集上的示例上表现出高不愿定性。
利用这种方法的结果是,模型在与演习数据类似的数据上非常准确,而在其他数据上则显示出很高的不愿定性。
不过,目前还不清楚我们在实践中能在多大程度上依赖这些研究成果。
以这种办法演习出来的模型经由优化,可以识别出某些类型的输入超出了它们可以处理的范围。
但是,由于现实天下是繁芜和不可预测的,这种演习不可能涵盖输入超出范围的所有可能办法。

模型集成

(Model Ensembling)

模型集成是一种简便的方法,即将多个经由演习的模型组合起来,并对它们的预测进行均匀。
相较于仅利用单个模型,此方法常日能提升预测精度。
一个集成的预测不愿定性以不同预测的标准差来表示,这意味着若集成中的所有模型做出相似预测,不愿定性就低;若做出差异极大的预测,不愿定性则高。
在实际运用中,集成方法常日能成功供应良好的预测不愿定性估计,因而颇受欢迎。
不过,因其需演习多个模型,可能本钱较高。
利用集成进行不愿定性量化的潜在机制在于,集成中的不同模型在与演习数据相似的输入示例上大概率会达成同等,而在与演习数据有显著差异的输入示例上可能存在不合。
因此,当集成组件的预测不同时,可将其作为不愿定性的替代。

然而,无法验证这种机制对付任何给定的集成和输入示例是否适用。
特殊是,对付某些输入示例,有可能集成中的多个模型都给出相同的缺点答案,从而给人一种缺点的自傲感,并且无法担保给定的集成能全面供应可靠且校准良好的预测不愿定性估计。
对付某些用例,集成常日能供应相称不错的不愿定性估计,或许足以使其值得利用。
但在用户须要确信系统能可靠识别可能失落败的情形时,集成不应被视作一种可靠的方法。

共形预测

(Conformal Prediction)

共形预测是一种在统计学上有充分依据的方法,可供应数学可靠性担保,但依赖于一个关键假设:模型支配后将碰着的数据是由与演习数据相同的基本数据天生过程天生的(即不存在分布偏移)。
利用这一假设,共形预测可以为特定预测范围包含精确预测的概率供应数学担保。
共形预测的紧张优点是可以从数学上担保其预测的不愿定性估计值在某些假设条件下是精确的。
它的紧张缺陷是,这些假设紧张是模型在支配时会碰着与其演习数据类似的数据。
此外,当这些假设被违反时,每每无法检测到,这意味着可能使确定性方法失落灵的输入变革也可能导致共形预测失落败。
事实上,在机器学习模型随意马虎失落效的所有运用问题中,以及在我们希望找到改进不愿定性量化方法的所有运用问题中,共形预测的标准假设都会被违反。

贝叶斯推理

(Bayesian Inference)

贝叶斯不愿定性量化利用的是贝叶斯推理,它供应了一个数学事理框架,用于在得到更多证据或信息时更新假设的概率。
贝叶斯推理可用于演习神经网络,将网络中的每个参数表示为随机变量,而不是单一的固定值。
虽然这种方法能担保准确地表示模型的预测不愿定性,但在神经网络等当代机器学习模型上进行精确的贝叶斯推理在打算上是不可行的。
相反,研究职员所能做的便是利用近似值,这就意味着无法担保模型的不愿定性得到准确表达。

四、利用不愿定性量化的实际考虑

机器学习的不愿定性量化方法是使当代机器学习系统更加可靠的有力工具。
虽然每种方法都有明显的实际缺陷,但研究表明,专门用于提高当代机器学习系统量化不愿定性能力的方法在大多数情形下都能取获胜利。
因此,这些方法常日是标准演习程序的“附加功能”。
它们可以定制设计,以应对特定预测任务或支配环境的详细寻衅,并可为支配的系统增加一个额外的安全层。

考虑人机交互对付有效利用不愿定性量化方法至关主要。
例如,能够阐明模型的不愿定性估计、确定人类操作员能够接管的机器学习系统的不愿定性水平,以及理解系统的不愿定性估计何时以及为何不可靠,这对付安全关键型运用环境来说极为主要。
环绕用户界面设计、数据可视化和用户培训所做的选择,会对不愿定性估计在实践中的实用性产生重大影响。

考虑到现有不愿定性量化方法的局限性,利用不愿定性估计值不会造成虚假的自傲至关主要。
系统的设计必须考虑到这样一个事实,即如果一个显示高置信度的模型碰着了超出其演习和测试范围的未知成分,那么该模型仍旧可能是缺点的。

五、前景展望

人们对如何利用不愿定性量化来减轻大措辞模型的弱点(如随意马虎产生幻觉)越来越感兴趣。
虽然过去该领域的许多事情都集中在图像分类或大略的表格数据集上,但一些研究职员正开始探索谈天机器人或其他基于措辞的系统“知道它们不知道的东西”是什么样子。
(例如,“法国的都城是哪里?”的精确答案可能包括“巴黎”、“是巴黎”或“法国的都城是巴黎”,每种答案都哀求措辞模型对下一个单词做出不同的预测)。
由于在可靠的不愿定性量化方面存在根本性的寻衅,我们不应期望措辞天生或任何其他类型的机器学习开拓出完美的办理方案。
正如构建能适应新语境的机器学习系统这一更广泛的寻衅一样,分布偏移的可能性意味着我们可能永久无法构建出能完备确定地“知道它们不知道的东西”的人工智能系统。
只管如此,过去几年来,在打算机视觉或强化学习等具有寻衅性的领域,可靠的不愿定性量化研究在提高当代机器学习系统的可靠性和稳健性方面取得了长足进步,并将在不久的将来在提高大型措辞模型的安全性、可靠性和可阐明性方面发挥至关主要的浸染。

免责声明:本文转自元计策。
文章内容系原作者个人不雅观点,本公众号编译/转载仅为分享、传达不同不雅观点,如有任何异议,欢迎联系我们!

转自丨元计策

研究所简介

国际技能经济研究所(IITE)成立于1985年11月,是从属于***发展研究中央的非营利性研究机构,紧张职能是研究我国经济、科技社会发展中的重大政策性、计策性、前瞻性问题,跟踪和剖析天下科技、经济发展态势,为中心和有关部委供应决策咨询做事。
“环球技能舆图”为国际技能经济研究所官方微信账号,致力于向公众通报前沿技能资讯和科技创新洞见。

地址:北京市海淀区小南庄20号楼A座

电话:010-82635522

微信:iite_er