AI-Guardian是一种用于检测图片的AI审核系统,能够检测图片中是否存在不当内容,同时还可以识别图片是否被其他AI修正过。
一旦创造有不当内容或修改迹象,该系统将提示管理员进行处理。

人工智能寻衅!GPT-4 攻破 AI-Guardian 防御机制_图片_模子 AI快讯

(图片来源:网络)

在最初的设计中,AI-Guardian的开拓是为了通过识别和阻挡包含可疑工件的输入来防止对抗性攻击。
但是,Carlini的论文表明,GPT-4在通过提示的辅导下,可以通过天生脚本和解释图像调度来战胜AI-Guardian的防御,这些图像调度欺骗了分类器,而不会触发AI-Guardian的检测机制。

实验中,GPT-4会发出一系列缺点的脚本和解释来欺骗AI-Guardian。
例如,GPT-4可以通过误导性描述使AI-Guardian将“某人拿着枪的照片”误认为是“某人拿着无害苹果的照片”,从而绕过了AI-Guardian的审核,让AI-Guardian直接放行干系图片输入源。
谷歌研究团队表示,借助GPT-4的帮助,他们成功地“破解”了AI-Guardian的防御系统,将其准确性从98%降落到仅8%。

(图片来源:网络)

该实验展示了谈天机器人在推进安全研究方面的潜在代价,并突出了GPT-4等强大措辞模型对未来网络安全的影响。
不过AI-Guardian的开拓者也同时指出,谷歌研究团队的这种攻击方法将在未来的AI-Guardian版本中不再可用,考虑到别的模型也会随之跟进,因此当下谷歌的这套攻击方案更多在日后只能用于参考性子。

编辑点评:虽然GPT-4的能力为未来的安全研究供应了参考,但也强调了人类专业知识和协作努力的主要性。
随着人工智能措辞模型的不断发展,我们更该当加强对付AI模型安全性的关注与研究,以确保用户信息和网络安全。