人工智能生成的合成媒体DeepFake 理解一下_技巧_人工智能

2024-12-06 23:26:23 AI快讯

逐日最新 IT 圈 AI 圈新鲜事吐槽给你想看的

人工智能生成的合成媒体DeepFake 理解一下_技巧_人工智能 AI快讯

原文 | https://towardsdatascience.com/ai-generated-synthetic-media-aka-deepfakes-7c021dea40e1

作者 | Ashish Jaiman 编译 | 亚飞

人工智能(AI)和云打算的进步，使得音频、***和图像处理技能的繁芜性得到了快速、便捷的发展。
综述&先容
想象一下，在选举前几天，一个候选人的***被发布，显示他们利用仇恨辞吐，种族曲解，以及削弱他们作为亲少数族裔的形象。
想象一下，一个十几岁的孩子看着一段令工资难的露骨***在社交媒体上传播。
想象一下，一个CEO在筹集资金的路上，当一段陈述她对产品的恐怖和焦虑的音频片段被发送给投资人时，毁掉了她成功的机会。
以上所有的场景都是假的、编造的，并不是真实的，但可以通过人工智能天生的合成媒体，也便是所谓的DeepFake[1]，使之成为现实。
同样的技能，可以让一位因卢伽雷氏病而失落声的母亲用合针言音与家人对话，也可以用来天生政治候选人的假演讲，以危害其名誉。
同样的技能，可以让老师利用合成***与学生进行有效的互动，也可以用来制作一个青少年的假***来危害其荣誉。
人工智能(AI)和云打算技能、GPU虚拟机和平台做事的进步，使得音频、***和图像处理技能的繁芜性得到了快速发展。
商品化云打算的接入、公共研究的人工智能算法，以及丰富的数据和多样化海量媒体的可用性，为合成媒体的创作民主化创造了一场完美的风暴。
这种人工智能天生的合成媒体被称为深层假造。
通过社交平台，合成媒体的传播实现了规模化的民主化。
Deepfakes是利用人工智能技能的深度（深度）学习天生的合成媒体（假）。
GAN技能的创新和研究，加上打算的日益遍及，使得合成数据的质量以惊人的速率提高。
新的工具，个中许多是公开的，可以以越来越可信的办法操纵媒体，例如创建一个"大众年夜世人物的声音副本或将一个人的脸叠加到另一个人的身体上。
GAN和deepfakes已经从研究和学术课题发展到企业创新、娱乐和参与社会活动的实际运用。
Cheapfake是通过大略的常规编辑技能，如加速、减速、剪切等，以及非技能性的操作，如重新编排或重构现有媒体。
廉价假造的一个例子是 "醉酒的佩洛西 "***[2]。
最近，我们看到一些政治广告中利用了重新着色和润色的手腕，这也是一种廉价的赝品[3]。
Cheapfakes或Shallowfakes被定义为通过利用更直接的图像和***编辑技能来传播缺点/虚假信息或改变故事的叙事的操纵媒体。
深度伪装的类型
Deepfakes已经成为换脸和对口型的代名词。
还有很多其他类型的基于人工智能的音频、***和图像的操作都可以被称为Deepfakes。
换脸
换脸是指一个人的脸被另一个人的脸或另一张脸的关键特色所取代或重构。
脸部交流或用滤镜进行操作，险些是所有社交媒体、***谈天运用的常见功能。
从2014年开始，社交媒体运用Snapchat就有了增强人脸的滤镜。
利用人脸检测镜头技能，你可以让自己变老，添加美颜滤镜，或者给自己装上猫耳朵和髯毛。
这些运用和技能的输出将被定性为AI-Generated合成媒体或deepfakes。
大量的免费和付费运用和在线工具让两个人的换脸变得超级大略。
开拓者可以利用GitHub上的Faceswap和DeepFaceLab的开源代码来创建非常繁芜的deepfakes，并在定制代码和演习AI模型方面做出一些努力。
操控术
操控术是用人工智能渲染操纵的全身动作和行为。
它是一种在***中创建目标脸部和身体的3D模型来作为木偶人的行为和说的技能。
它也被称为全身深度假动作。
2018年8月，加州大学伯克利分校揭橥了一篇名为《Everybody Dance Now》的论文[4]。
这是研究人工智能如何将专业舞者的动作转移到业余爱好者的身上。
***工智能公司Data Grid创造了一个AI引擎，可以自动天生广告和时尚的虚拟模型。
唇语同步
唇语同步是一种渲染嘴部动作和面部表情的技能，让目标人物用声音和精确的语气和腔调说事情。
AI算法可以将一个人说话的现有***，改变***中的唇部动作，以匹配新的音频。
这些音频可能是断章取义的旧讲话，也可能是模拟者说话或合成的讲话。
演员和导演乔丹-皮尔就用这种技能制作了奥巴马的病毒***。
语音克隆
Voice Coning是一种深度学习的算法，它可以吸收个人的语音记录，天生与原声过分相似的合针言音。
它是一种创建个人的自定义语音字库，然后用字库来天生语音的技能。
开拓合针言音的运用和云做事有很多，微软定制语音、Lyrebird AI、iSpeech和VOCALiD，个人和企业都可以利用这样的技能来提高自己的机构。
图像合成
图像天生或图像合成是一种利用打算机视觉技能、深度学习和天生式对抗网络（GANs）来合成新图像的技能。
它可以天生打算机天生的人或任何非真实物体的图像。
英伟达的一个团队用从Flickr上提取的人脸图片演习了一台打算机，创建了网站ThisPersonDoesnotExist.com。
在网站ThisXDoesnotExist.com上还有其他例子。
文本天生
文本天生是利用人工智能技能进行文本和深度学习，自动天生文本，写故事、散文和诗歌，创建长文档的择要，以及综合的方法。
利用RNN（循环神经网络）和现在的GANs，文本天生有很多实际的利用案例。
文本天生可以帮助行业中新的自动化***或机器人***事情。
OpenAI的GPT-3可以天生任何文本，包括吉他标签或打算机代码。
正面利用
技能能够增强人们的能力，是一个很好的推动力。
技能可以让人们有话语权，有目标，有能力大规模、快速地产生影响。
由于数据科学和人工智能的进步，涌现了新的赋能理念和能力。
人工智能合成媒体有很多积极的运用案例。
技能可以为所有人创造可能性和机会，不管他们是谁，也不管他们如何听、如何说、如何沟通。
深假技能的进步在某些领域有明显的好处，比如无障碍、教诲、电影制作、刑事取证和艺术表达。
[我将在往后的文章中磋商积极的利用案例]。
恶意利用
与任何新技能一样，邪恶的行为者会利用这种创新并为他们的利益做事。
GAN和Deepfakes已经不仅仅是研究课题或工程玩具。
从一个创新的研究观点开始，现在它们可以作为一种通信武器利用。
Deepfakes正变得随意马虎创造，乃至更随意马虎在政策和立法真空中传播。
Deepfakes使编造媒体--换脸、对口型和木偶人--成为可能，大多数情形下，无需赞许，并给生理安全、政治稳定和商业滋扰带来威胁。
深度造假可以用来危害名誉、捏造证据、欺骗"大众年夜众、毁坏对民主系统编制的信赖。
近两年，利用天生式人工智能模型创建的合成数据被恶意利用的可能性开始引起人们的当心。
该技能现在已经发展到可能被武器化，对个人、社会、机构和民主制度进行毁坏和侵害。
Deepfakes可以促进事实相对主义，并使专制领导人得以发展。
Deepfakes不仅会造成侵害，还将进一步侵蚀人们对媒体已经低落的信赖。
它还可以帮助公众人物将自己的不道德行为隐蔽在Deepfakes和假***的面纱中，将他们的实际危害行为称为虚假行为，也便是所谓的骗子红利。
非国家行为者，如叛乱组织和胆怯组织，可以利用Deepfakes来代表他们的对手揭橥鞭策性辞吐或从事挑衅性行动，以鞭策人们的反国家感情。
例如，一个胆怯组织可以很随意马虎地制作一个假***，显示士兵对宗教场所的不敬，以点燃现有的反国家感情，造成进一步的不和谐。
国家可以利用类似的策略来传播针对少数族裔社区或另一个国家的打算宣扬，例如，一个假***显示一个警察高喊反宗教的污言秽语，或者一个政治活动家呼吁暴力。
所有这些都可以用较少的资源、互联网规模和速率来实现，乃至可以通过微目标来引发支持。
[我将在今后的文章中磋商深层伪装的负面利用案例和危害]
反制方法
为了守卫原形和保障辞吐自由，我们须要采纳多利益攸关方和多模式的方法。
任何减轻恶意深层造假的社会负面影响的对策，其紧张目标必须是双重的。
其一，减少恶意深层造假的风险，其二，将其可能造成的丢失降到最低。
恶意深造的有效对策可分为立法行动与法规、平台政策与管理、技能干预和媒介素养四大类。
笔者将在往后的文章中磋商有效的对策。
参考来源：
[1] https://papers.ssrn.com/abstract_id=3213954
[2] https://slate.com/technology/2019/06/drunk-pelosi-deepfakes-cheapfakes-artificial-intelligence-disinformation.html
[3] https://www.msn.com/en-us/news/politics/lindsey-graham-campaign-ad-features-image-of-opponent-with-digitally-altered-darker-skin-tone/ar-BB17itff?ocid=msedgntp
[4] https://arxiv.org/pdf/1808.07371.pdf