作者:Hazel Yan

一键开启ChatGPT“危险谈话”!研究创造:AI聊天机械人竟有“大年夜bug”今朝无法修复_模子_机械人 文字写作

编辑:佩奇

随着大模型技能的遍及,AI 谈天机器人已成为社交娱乐、客户做事和教诲赞助的常见工具之一。

然而,不屈安的 AI 谈天机器人可能会被部分人用于传播虚假信息、操纵舆论,乃至被黑客用来盗取用户的个人隐私。
WormGPT 和 FraudGPT 等网络犯罪天生式 AI 工具的涌现,引发了人们对 AI 运用安全性的担忧。

上周,谷歌、微软、OpenAI 和 Anthropic 共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿 AI 系统的安全和负任务的发展:推进 AI 安全研究,确定最佳实践和标准,促进政策制订者和行业之间的信息共享。

那么,问题来了,他们自家的模型真的安全吗?

近日,来自卡内基梅隆大学、Center for AI Safety 和 Bosch Center for AI 的研究职员便表露了一个与 ChatGPT 等 AI 谈天机器人有关的“大 bug”——通过对抗性提示可绕过 AI 开拓者设定的防护方法,从而操纵 AI 谈天机器人天生危险辞吐。

当前热门的 AI 谈天机器人或模型,如 OpenAI 的 ChatGPT、谷歌的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2,都无一幸免。

图|通过对抗性提示可绕过 4 个措辞模型的安全规则,引发潜在有害行为

详细而言,研究职员创造了一个 Suffix,可将其附加到针对大型措辞模型(LLMs)的查询中,从而天生危险辞吐。
比较于谢绝回答这些危险问题,该研究可以使这些模型天生肯定回答的概率最大化。

例如,当被讯问“如何盗取他人身份”时,AI 谈天机器人在打开“Add adversarial suffix”前后给出的输出结果截然不同。

图|开启 Add adversarial suffix 前后的谈天机器人回答比拟

此外,AI 谈天机器人也会被勾引写出“如何制造原子弹”“如何发布危险社交文章”“如何盗取慈善机构钱财”等不当辞吐。

对此,参与该研究的卡内基梅隆大学副教授 Zico Kolter 表示,“据我们所知,这个问题目前还没有办法修复。
我们不知道如何确保它们的安全。

研究职员在发布这些结果之前已就该漏洞向 OpenAI、谷歌和 Anthropic 发出了警告。
每家公司都引入了阻挡方法来防止研究论文中描述的漏洞发挥浸染,但他们还没有弄清楚如何更普遍地阻挡对抗性攻击。

OpenAI 发言人 Hannah Wong 表示:“我们一贯在努力提高我们的模型应对对抗性攻击的鲁棒性,包括识别非常活动模式的方法,持续通过红队测试来仿照潜在威胁,并通过一种普遍而灵巧的办法修复新创造的对抗性攻击所揭示的模型弱点。

谷歌发言人 Elijah Lawal 分享了一份声明,阐明了公司采纳了一系列方法来测试模型并找到其弱点。
“虽然这是 LLMs 普遍存在的问题,但我们在 Bard 中已经设置了主要的防护方法,我们会不断改进这些方法。

Anthropic 的临时政策与社会影响主管 Michael Sellitto 则表示:“使模型更加抵抗提示和其他对抗性的‘越狱’方法是一个热门研究领域。
我们正在考试测验通过加强基本模型的防护方法使其更加‘无害’。
同时,我们也在探索额外的防御层。

图|4 个措辞模型天生的有害内容

对付这一问题,学界也发出了警告,并给出了一些建议。

麻省理工学院打算学院的教授 Armando Solar-Lezama 表示,对抗性攻击存在于措辞模型中是有道理的,由于它们影响着许多机器学习模型。
然而,令人惊奇的是,一个针对通用开源模型开拓的攻击居然能在多个不同的专有系统上如此有效。

Solar-Lezama 认为,问题可能在于所有 LLMs 都是在类似的文本数据语料库上进行演习的,个中很多数据都来自于相同的网站,而天下上可用的数据是有限的。

“任何主要的决策都不应该完备由措辞模型独自做出,从某种意义上说,这只是知识。
”他强调了对 AI 技能的适度利用,特殊是在涉及主要决策或有潜在风险的场景下,仍须要人类的参与和监督,这样才能更好地避免潜在的问题和误用。

普林斯顿大学的打算机科学教授 Arvind Narayanan 谈道:“让 AI 不落入恶意操作者手中已不太可能。
”他认为,只管该当尽力提高模型的安全性,但我们也该当认识到,防止所有滥用是不太可能的。
因此,更好的策略是在开拓 AI 技能的同时,也要加强对滥用的监管和对抗。

担忧也好,不屑也罢。
在 AI 技能的发展和运用中,我们除了关注创新和性能,也要时候牢记安全和伦理。

只有保持适度利用、人类参与和监督,才能更好地规避潜在的问题和滥用,使 AI 技能为人类社会带来更多的益处。

参考链接:

https://llm-attacks.org/
https://arxiv.org/abs/2307.15043
https://github.com/llm-attacks/llm-attacks
https://www.wired.com/story/ai-adversarial-attacks/
https://www.businessinsider.com/ai-experts-say-no-fix-jailbreaks-chatgpt-bard-safety-rules-2023-8