AI 安然简介第 4 部分:对抗性机械进修_模子_梯度
这个会变得有点数学。但只有一点点,别担心。
根据乔治城大学安全与新兴技能中央 (CSET) 的数据,344 年(到目前为止,我们得到结果的末了一年)揭橥了 000,2021 篇关于人工智能 (AI) 主题的期刊论文、书本、书本章节和会议论文。这个数字解释了环绕人工智能技能的炒作,机器学习(ML)是其紧张驱动力。它还不仅涉及对人工智能办理方案的商业兴趣,还涉及学术界对新功能、改进和运用的兴趣。虽然并非所有的ML办理方案都会像GPT-4一样繁芜,但据宣布,到2020年,打算机视觉,自然措辞处理,分类和预测等任务的每个紧张行业都已经产生了某种人工智能。
这种快速采取引发了人们对可能欺骗、毁坏或挟制 ML 模型的技能的兴趣,这演化成对抗性机器学习 (AML) 领域。自 2000 年代以来,人们对黑客或躲避算法的兴趣一贯存在,例如作为躲避恶意软件分类或垃圾邮件过滤器的手段。然而,设计利用 ML 架构和特色的固有特色的方法,包括但不限于丢失函数、演习过程、对演习数据的依赖、权重、“黑匣子”性子和不同的卷积层,是 AML 的差异。同样根据CSET的数据,17年至000年间揭橥了2010,2021篇关于对抗性机器学习的论文。这可能会让您感到惊异,特殊是如果您以前从未听说过 AML。
AI 安全是指与保护 AI 系统免受毁坏、欺骗和表露干系的技能和管理把稳事变。对抗性机器学习是开拓进攻和防御技能来攻击模型的领域(只管它确实方向于关注进攻),并且由于它源于研究社区,因此它可能比从业者更学术。
Szegedy等人在2014岁首年月次将AML技能运用于图像,Goodfellow在2015年的论文中将其扩展到创建快速梯度符号方法(FGSM)。他们在图像中添加了特制的对抗扰动,以非目标或目标办法欺骗图像分类,肉眼无法检测到。
其他基于图像的例子紧随其后,包括可以躲避面部识别模型的眼镜,可以欺骗职员检测分类器的对抗性贴纸,3D打印的,纵然旋转时也能说服分类器它是步枪,以及放置在停车标志的一小部分上的贴纸,而是被自动驾驶汽车阐明为速率标志。
此后,这些方法已转移到许多其他领域和输入数据类型:银行,金融,社交媒体,视频(和深度假造),网络入侵检测,医疗保健,司帐,物联网和通信。这些技能的准确性、动态性和反应性的改进,加上远不成熟(常日不存在)的ML防御和安全方法,使AML成为所有生产化ML模型的新兴威胁。
自2014年对抗性机器学习论文爆炸式增长以来,根据MITRE的人工智能系统对抗性威胁格局(ATLAS)知识库,攻击类和子类的数量已成倍增加到一百多个,该知识库列出了AML策略,技能和案例研究,作为ATT&CK网络安全框架的补充。如果我们在学术论文中包括定制方法,还有更多。对抗性鲁棒性工具箱 (ART) 是由 IBM 发布的用于机器学习安全的开源 Python 库,也是 AML 方法和实现的最大资源。
一些数学
好的,我必须包括一些数学,但不要担心,这只是能够开始谈论不同 AML 方法而不会以为自己是失落败者的必要数量。
普遍对抗性扰动
通用对抗扰动 (UAP) 方法将扰动向量添加到全体图像中,该向量通过唯一值变动每个图像的每个像素,但不基于目标模型的丢失函数。目的是这个向量足够小,不被人类不雅观察到,但又足够主要,可以欺骗分类器。
这种技能基本上是一种奇特的办法,说我们正在添加具有有限幅度的随机噪声。它的成功确实暴露了许多ML模型的薄弱性。
快速梯度符号法
快速梯度符号法(FGSM)由Szegedy和Goodfellow于2014岁首年月次提出。此方法打算模型丢失函数相对付输入的梯度。该攻击基于在每个韶光戳处沿梯度符号方向进行的一步梯度更新,由 epsilon 值裁剪。
它的一次性性子意味着它在打算上很便宜,但不一定打算出最佳扰动矢量。只管它相对大略,但它对许多目标模型都有效。
估量梯度低落
投影梯度低落(PGD)通过更进一步而不是一步梯度更新,采取迭代方法办理了FGSM的这一限定。它打算多次迭代 (t) 中相对付真实分类的丢失,仍受 epsilon 值的约束。这意味着它更有可能找到具有全局最优的扰动向量。
此方法采取 L 无穷大范数,由于它可以访问全体图像的打算梯度。这是一种数学办法,当打算真实值和目标值之间的“间隔”时,它因此特定的办法完成的(取最大值的绝对值)。这与 L-1 或 L-2 规范形成光鲜比拟,但现在不要担心这些,只要知道在这个阶段,当与数学职员交谈时,他们可能会参考 L 规范,他们基本上指的是如何实行优化。
单像素攻击
单像素攻击 (OPA) 还利用迭代方法,通过该方法识别单个像素,当受到滋扰时,最有可能导致工具被缺点分类。它们将原始图像与扰动为某种RGB颜色的单个对抗像素进行卷积,并识别最大程度地滋扰该图像置信度的像素位置和颜色。
对抗性补丁
对抗性补丁是放置在目标工具附近或目标工具上的图像,会导致分类器忽略场景中的项目并报告补丁的选定目标。
现在还有许多其他技能,但我没有韶光详细先容 95+ 更多。
以是我知道这里有一些数学,并不适宜所有人,但如果你从本节中学到什么,那该当是:我描述的所有技能都提到了优化\这个词。
优化
在机器学习中,优化是指为机器学习模型找到最佳参数的过程。这是通过最小化丢失函数来完成的,丢失函数是模型在给天命据集上表现的度量。有许多不同的优化算法可用于查找机器学习模型的最佳参数。(一些最常见的算法包括梯度低落、随机梯度低落和贝叶斯优化。
想象一座小山。山丘表示丢失函数,目标是找到山丘上的最低点,该点表示全局最小值。山坡的斜率表示丢失函数的变革速率。优化算法可以被认为是试图找到山上最低点的步辇儿者。步辇儿者从山上的一个随机点开始,然后朝着最陡峭的低落方向迈出几步。这意味着它们总是朝着山上的最低点移动。
一种可视化模型梯度的方法——基本上是潜在模型参数的高维空间以及结果模型的准确性
许多对抗性机器学习算法利用丢失函数,但它不是向下移动(这使得模型参数更加优化),而是试图向上移动丢失函数(并使模型不那么优化,空想情形下,它会导致分类,但不会移动得太远以至于不雅观察者很明显)。“向上移动”斜坡的过程类似于将割草机或推土机(我显然不是地皮清理专家)带到山上并重塑它,这样不仅下山的路径略有不同,而且山的别的部分也是如此(例如更新对抗性示例图像中的像素)。
攻击面分类
ML 生命周期(又称攻击面)
AML 攻击可能发生在 ML 生命周期的每个点,包括演习和推理。高等攻击类包括中毒攻击、提取攻击、规避攻击和推理攻击。应考虑基于系统的安全方法,由于 AI 系统常日包括许多交互的 ML 和软件系统。
反洗钱攻击进一步以对手的知识、特异性、攻击频率和目标为特色。对手对目标模型的理解称为白盒、灰盒或黑盒。白盒假定攻击者完备理解目标模型的内部特色,包括模型权重、演习数据或丢失函数。另一方面,黑盒不须要理解目标模型,常日被认为是真实对手的状态。灰盒是指白盒和黑盒之间连续体上的某个点,个中目标模型的一些特色是已知的。攻击特异性是指对手在多大程度上考虑了特定结果。针对性攻击将模型定向到预定义的结果。例如,导致分类器预测特定类的对抗性扰动。非针对性攻击可能旨在毁坏模型的行为,但没有明确的结果,例如向图像添加随机噪声,从而降落其整体准确性。
这些特色以及每个特色的连续统一体可用于威胁建模,以确定 AML 攻击对目标的影响,给定比拟对手的能力。只管攻击种类繁多,但仍有许多类别的 ML 尚未引发攻击或进行目标或威胁剖析调查。
防御
在往后的深入博客中,我将更深入地先容防御的范围,以及如何实际利用它们。有许多防御方法可以用来降落 AML 攻击成功针对系统的风险。有些是现有网络安全掌握的扩展,但其他则是 ML 生命周期和特定实现架构所独占的。管理演习数据并将输入数据限定到模型的网络安全掌握可降落中毒和提取攻击的风险。然而,正如反复发生的网络事宜所证明的那样,此类掌握的详细履行仍可能留下未办理的漏洞。
AI 安全特有的缓解方法包括对抗性演习,个中模型在那些对抗性示例上进行演习,否则这些示例可能会在躲避攻击中成功。然而,这常日因此捐躯准确性为代价的,这是许多组织不愿意做出的权衡(特殊是当准确性是利润的代表时)。对抗演习在某些用例上也比其他用例更有效,例如,它对打算机视觉非常有效,但对其他数据类型更具寻衅性。梯度稠浊是另一种防御方法,可缓解那些依赖于访问目标模型梯度函数的白盒攻击。然而,针对代理模型的黑盒攻击常日仍旧非常有效,特殊是由于在相同或相似数据上演习的模型方向于类似的内部构造。防御领域很广,许多其他潜在的防御都集中在防御特定攻击或分散风险的分布式方法上。
反洗钱防御(只管精确的方法不是攻击与防御,而是从一开始就安全并降落风险)
我认为,人工智能安全领域的成熟在于将攻击与防御的范式转变为担保和风险管理的范式。这便是为什么在谈论人工智能系统的安全性时,我们关注的不是可以履行的技能防御,而是关注生态系统的需求,以实现和成熟人工智能安全的实践。
当前格局的特点是对抗性机器学习技能和模型鲁棒性之间的武备竞赛。不幸的是,健壮性在 ML 社区中常日仍旧是事后的想法。不过,这种情形正在改变,我对我在学术界和从业者社区看到的进步感到非常高兴。
本文系作者个人观点,不代表本站立场,转载请注明出处!