2010年6月27日,联邦调查局以特工名义逮捕了10名在纽约市附近以美国专业人士身份生活和事情的俄罗斯特工。
此案戳穿了一个由虚假身份和秘密会议组成的错综繁芜的系统,戳穿了自冷战结束以来美国最大的特工网络之一,并启示了电视剧《美国人》。

秘密信息可以隐藏在人工智能生成的媒体中情报传递的新办法_信息_文本 智能助手

它还引起了人们对隐写术的关注,隐写术是一种将秘密信息隐蔽在另一条信息中的方法。
纽约特工将他们的秘密隐蔽在众目睽睽之下,将通信编码在公开网站上发布的看似无害图像的像素内。
要阅读它们,收件人必须***一张图片,将其翻译成二进制代码的1和0,然后知道哪些变动后的数字按顺序排列会拼出秘密。

隐写术既是一门艺术,也是一门科学,不同于更为人熟知的秘密通信方法,即密码学。
密码术故意隐蔽的内容,将其转化为一团乱麻的文本或数字,而隐写术则隐蔽了秘密存在的事实。
伯尔尼大学的打算机科学家和密码学家Christian Cachin说:“隐写术隐蔽了的存在。
如果对手可以检测到隐蔽的,那么发送者就输了。

与任何秘密通信方法一样,寻衅在于如何使其完备安全,这意味着人类和机器检测器都不会疑惑隐蔽秘密的。
对付隐写术,这一贯是理论上的可能性,但被认为不可能通过实际的人类通信实现。

ChatGPT等大型措辞模型的涌现表明了一条不同的提高道路。
虽然可能无法担保人类创建的文本的安全性,但一项新的证据首次阐明了如何在机器天生的中实现隐写术的完美安全性,无论是文本、图像、***还是任何其他媒体。
作者还包括一套天生安全的算法,他们正在研究将其与盛行运用程序相结合的方法。

卡内基梅隆大学的打算机科学家Samuel Sokota开拓了新的算法,他说:“随着我们越来越成为一个与人工智能模型交各别常普遍的社会,在人们一贯利用的媒体中编码秘密信息的机会越来越多”。

这一结果来自傲息理论的天下,它为理解各种互换供应了一个数学框架。
这是一个抽象而整洁的领域,与实用隐写术的繁芜混乱形成光鲜比拟。
宾厄姆顿大学研究在数字媒体中隐蔽和检测数据的方法的研究员Jessica Fridrich说,天下并不常常重叠。
但新算法通过知足长期以来的安全理论标准,并提出在机器天生的内容中隐蔽的实际运用,将它们结合在一起。
新算法可以被像纽约俄罗斯人这样的特工利用,但它们也可以帮助人们试图在禁止加密渠道的国家获取信息。

古老的秘密通报策略

隐写术在希腊语中是“隐写”的意思,比数字媒体早了几千年。

已知最早的例子涌如今希罗多德撰写于公元前5世纪的《历史》中。
在一个故事中,一条信息被写在木板上,并被一层蜡隐蔽起来,以避免在旅途中被拦截。
在另一篇由统计学家埃涅阿斯撰写的文章中,一条信息在某些字母上隐蔽了看不见的墨水点,这些墨水点拼写出了真正的信息。
在一个更极度的例子中,暴虐的领导人Histiaeus想在没有被创造的情形下向他的侄子传达一个策略,以是他剃掉了一个奴隶的头,在这个人的头上纹上了他的信息,并等待头发长回来后再发送信息。
到达后,侄子剃掉信使的头,露出了操持。

这些策略一贯存在,技能大概可新的策略涌现。
第一次天下大战期间的德国特工找到了通过微点传输信息的方法:他们复制并缩小一份文件,直到它像一个“i”的点一样小,看起来无辜,但可以通过放大来揭示。

政客们也转向了欺骗性的手段。
20世纪80年代,在一系列***透露之后,据称英国首相玛格丽特·撒切尔对大臣们的笔墨处理器进行了重新编程,使每个大臣都有自己的、险些无法检测但独特的单词间距模式。
这一眇小的修正使得透露的文件能够被追踪到源头。

这种方法在21世纪连续发达发展,无论好坏。
当代隐写术策略包括用隐形墨水书写信息,俄罗斯特工在纽约利用的另一种策略,在绘画细节中隐蔽艺术家署名,以及设计带有隐蔽或反向轨道的音频文件。
弗里德里希说,数字媒体中的隐写术方法还可以帮助隐蔽语音邮件文件中的图像,或者像俄罗斯特工一样,将书面文本放入修改过的照片中。

形式化保密

Cachin说,直到20世纪80年代,数学家和打算机科学家才开始为隐写术探求正式的数学规则。
他们转向了信息理论,这一领域始于克劳德·喷鼻香农1948年的首创性论文《沟通的数学理论》,该论文建立了一种剖析方法来思考通过渠道发送和吸收信息。
喷鼻香农对电报线路进行了建模,但他为本日的数字技能奠定了根本。
他利用“熵”一词来量化变量中的信息量,例如对字母或进行编码所需的比特数。
1949年,他制订了完备安全的密码规则。
但Shannon没有提到隐写术中的安全问题。

大约50年后,Cachin做到了。
本着喷鼻香农的精神,他的方法因此概率的办法思考措辞。
考虑两名特工,爱丽丝和鲍勃,他们想通过隐写术通报信息,并对他们的对手伊芙保密。
当爱丽丝向鲍勃发送一条无害的信息时,她会从全体英语词典中选择单词。
这些单词具有与它们干系的概率;例如,“the”这个词比“dictionary”更随意马虎当选择。
总之,这些词可以表示为概率分布。
如果Alice利用隐写术向Bob发送编码,则该将具有自己的概率分布。

信息理论家利用一种称为相对熵的度量来比较概率分布。
这就像丈量一种抽象的间隔:牛津大学的打算机科学家Christian Schroeder de Witt参与了这篇新论文的研究,他说,如果两种分布之间的相对熵为零,“你就不能依赖统计剖析”来揭开秘密。
换句话说,如果未来的特工开拓出一种完备安全的算法来走私秘密,那么任何基于统计的监视都无法检测到。
他们的传输将被完备隐蔽。

但Cachin的证据取决于一个关键的假设,即隐蔽秘密的信息,即封面文本。
Cachin说,为了产生一个与原始的、无害的信息无法区分的新信息,你必须创建一个完美的封面文本分布仿照。
例如,在书面信息中,这意味着利用一些可以完美仿照一个人措辞的工具。
但人工天生的文本太混乱了。
有可能靠近——ChatGPT和其他大型措辞模型可以产生令人信服的仿照——但它们并不准确。
“对付人工天生的文本来说,这是不可行的,”Cachin说。
出于这个缘故原由,长期以来,完备安全的隐写术彷佛遥不可及。

Fridrich的研究重点是在照片和短信等人造数字媒体中隐蔽信息的繁芜现实天下繁芜性,他说,完美的仿照是一个永久无法知足的条件。
数字媒体的问题是,你永久不会有那种真正的模式,这太繁芜了,隐写术永久不可能完美。

追求完美

但是机器天生的文本当然不是人类创造的。
最近兴起的专注于措辞的天生模型,或其他天生图像或声音的模型,表明在现实天下中完备安全的隐写术是可能的。
毕竟,这些模型利用定义明确的采样机制作为天生文本的一部分,在许多情形下,这些机制看起来令人信服。

Sokota和Schroeder de Witt之前的事情不是隐写术,而是机器学习。
他们一贯在探求通过各种渠道传输信息的新方法,有一次他们理解到信息论中一个相对较新的观点,称为最小熵耦合。

Sokota说:“这是一种看似基本的工具,但尚未得到很好的探索”。
在最小熵耦合中,研究职员可以将两个概率分布组合成一个单一的联合分布,代表两个别系。
在隐写术的情形下,个中一个分布表示覆盖文本,另一个表示包含隐蔽的密文。
联合分发可以确保这两个文本在统计上无法区分,从而天生一个完备安全的。

Sokota、Schroeder de Witt和他们的团队一贯在努力探求利用该工具开拓深度学习新方法的方法。
但有一天,Sokota回顾说,他们的互助者Martin Strohmeier提到他们在最小熵耦合方面的事情让他想起了隐写术的安全问题。

Strohmeier只是随便揭橥评论,但Sokota和Schroeder de Witt却当真了。
该小组很快想出了如何利用最小熵耦合来设计隐写程序,以知足Cachin在真实天下机器学习系统环境中对完美安全性的哀求。

普渡大学的电气和打算机工程师Murat Kocaoglu说:“我很惊异地看到它在隐写术中有如此好的运用”。
他不研究隐写术,但他确实帮助设计了团队在论文中利用的一种算法。
“这项事情确实很好地与最小熵耦合联系在一起。

然后该团队更进一步,表明要使隐写术方案的打算效率尽可能高,它必须基于最小熵耦合。
新计策为如何同时实现安全性和效率制订了明确的方向——并建议两者齐头并进。

Sokota说:“我们的结果彷佛表明,这比不完备安全的方法更有效”。

现实天下

这是有局限性的。
Cachin指出,探求真正的最小熵耦合是一个NP-hard问题,这基本上意味着完美的办理方案在打算上过于昂贵,无法实现,回到效率问题上来。

Sokota和Schroeder de Witt承认这个问题:最佳耦合确实太繁芜而无法计算。
但为了绕过这个瓶颈,作者利用了Sokota和 Schroeder de Witt开拓的近似程序,基于 Kocaoglu 引入的方法,该程序仍旧担保安全性和合理的效率。

以下是他们如何看待它在实践中的浸染:比方说,一个持不同政见者或人权活动家想在一个被封锁的国家发短信。
Schroeder de Witt表示,WhatsApp或Signal等运用程序的插件将完成繁重的算法任务。
第一步是选择一个隐蔽密文的封面文本分发,也便是说,一个巨大的可能单词凑集,可以在中利用,就像来自ChatGPT或类似的大型措辞模型一样。
然后,该程序将利用该措辞模型来近似封面文本和密文之间的最小熵耦合,并且该耦合将天生将通过文本发送的字符串。
对付外部对手来说,新的文本将与无辜的机器天生的无法区分。
它也不一定是文本:例如,该算法可以通过对机器天生的手段(而不是ChatGPT)或人工智能天生的语音邮件音频进行采样来事情。

新算法在秘密的大小方面受到限定:Schroeder de Witt估计,利用当今的技能,他们的系统可以在大约30秒的机器天生的语音邮件中隐蔽大约225KB的图像或其他。
但要想取获胜利并不须要太大。
这足以让一条本色性的信息通过审查机构或当局。

Fridrich说,她更习气于战胜现实天下的局限性,而不是考虑理论。
对她来说,新事情开始弥合理论证明与混乱的现实天下之间的差距。
如果人们不该用机器天生的内容,那么新方案将无法担保安全。
但她说,随着它变得越来越普遍,实现完美安全的可能性会越来越大。

Fridrich说“统统都取决于什么是范例的。
如果一台机器天生了一些看起来很自然的无害图像,并且人们已经习气了这些图像,那么就很随意马虎创建出一个富含秘密信息的图像来源。
通过天生模型,这种方法为这两种方法的相遇供应了可能的路子”。

显然,它也是一把双刃剑。
Fridrich说:“犯罪分子会利用它,但同样它也可以用来做好事。

这篇研究文章于5月18日发布在《QUANTA》杂志上。