寻思考丨为什么我们依然以为AI换脸很“假”?_换脸_脸色
作者:Martin Anderson
译者:张雨佳
电视剧《波巴·费特之书》
《星球大战》的衍生剧《波巴·费特之书》(The Book of Boba Fett)中,曾有一集引起粉丝们的勉励谈论。这是由于,年轻版Mark Hamill由工业光魔公司(Industrial Light and Magic)雇佣deepfakes从业者 Shamook 制作而成。
只管AI换脸方法在2020年CGI技能的根本上有很大进步,而且总体上符合当前AI换脸的最佳视觉标准,但有一部分粉丝认为,《星球大战》中“Young Luke Skywalker”的新造型与前一部比较有一定毛病。
比如最明显的问题是,在以Skywalker为主角的长镜头中人物缺少表现力和细腻真切的情绪,这是利用AI换脸的范例结果,比CGI殊效更明显。The Verge网站认为,Boba Fett的AI换脸结果像“1983年Mark Hamill那张神秘且毫无表情的冰块脸”。
但不监工业光魔公司背后到底利用的是什么技能,AI换脸目前存在着难以传达细腻情绪的根本性问题。
无论是通过改变架构还是改进原始演习素材,都很难办理这个问题。
不过viral deepfakers方法在选择目标***时常日会更加谨慎,从而可以规避这一问题。
面部对齐的局限性
最常用的两个AI换脸开源代码库是DeepFaceLab(DFL)和FaceSwap,它们都脱胎于2017年。DFL只管功能有限,但在视觉殊效(VFX)行业拥有巨大的领先上风。
这些代码的最初任务是从原始素材(即***帧或静态图像)中提取人脸特色点。
正在运行的面部定位网络(FAN),来源:https://github.com/1adrianb/face-alignment
DFL和FaceSwap都利用了面部定位网络(FAN),FAN可以为提取出来的人脸创建2D和3D特色点(如上图所示)。3D特色点可以广泛感知人脸的方向,包括侧面的轮廓和比较尖锐的角度。
下面是一种非常基本的评估像素准则:
来自 FaceSwap 的面部轮廓的粗略标准,来源:https://forum.faceswap.dev/viewtopic.php?f=25&t=27
该标准须要考虑面部最基本的线条:比如眼睛和下巴可以扩大和缩小,嘴巴的基本形状(如微笑、皱眉等)也可以被追踪和调度。从相机的角度来看,面部可以向任意方向旋转 200 度旁边。
而这些粗糙的像素边界位置,是全体 AI 换脸过程中唯一精确的面部准则。演习时也只是与对应像素或周围像素进行比较,然后选择对应的处理方法。
演习示例(来源:https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2)
由于没有面部子区域的拓扑构造(包括脸颊的凹凸度、年事细节、酒窝信息等),以是想考试测验在匹配原始人物(你想改变的脸)和目标人物(你想复制的脸)中保持“细腻”的特色是不太可能的。
利用有限的数据
演习AI换脸模型须要获取两个人物之间的匹配数据,但这并不随意马虎。须要匹配的角度越分外,你就越有可能在人物A和人物B之间的(分外角度)匹配上做出妥协:保持相同的表情。
人脸数据并不完备匹配。
如上图所示,这两个人物的面部构造非常相似,但仍不能达到完备匹配,而这已经是数据集中匹配度最高的结果了。
不过上图中依然存在明显的差异:角度、镜头和灯光没有完备匹配;人物A(左图)没有像人物B(右图)一样完备闭上眼睛;人物A的图像质量和压缩率更差;人物B看起来比A更快乐。
虽然有以上各类差异,但我们只能依赖这些已有素材对 AI换脸模型进行演习。
由于涌现A与B完备匹配的情形很少,同样演习集中也很少有类似的匹配。因此演习常常会发生欠拟合和过拟合征象。
欠拟合:如果某些分外角度的匹配数据较少(即数据集中数据量比较大,但该角度的匹配图像对较少),那它与更“大略普遍”的匹配数据比较将不会得到有效演习。因此,AI换脸模型就不能对这个分外的角度或表情进行很好地表达。
过拟合:由于缺少足够的匹配数据,AI换脸模型有时会复制多次数据集中的匹配数据,以便在终极模型中得到更好的结果。但这可能会导致过拟合,用这种模型制作的AI换脸***很可能会对两张照片的不匹配之处进行复制,比如眼睛的闭合程度。
如下图所示,是用DeepFaceLab开源方法将弗拉基米尔普京(Vladimir Putin)演习为凯文史派西(Kevin Spacey)的样子,进行了16万次迭代演习。
(来源:https://i.imgur.com/OdXHLhU.jpg)
大部分人看到上面的图片后,可能认为Putin在这些换脸测试中的结果比Spacey更具空间感。下面我们先容一下在线表情识别程序是如何处理表情不匹配问题的:
根据这个比DFL和Faceswap更详细的面部特色剖析,我们创造Spacey的换脸结果中很少有Putin那样的愤怒、厌恶和歧视的表情。
这些不同的表情分类是entangled包中的一部分,由于常用的AI换脸运用程序没有匹配表情或感情的能力。
对我们来说,这些表情间差异很大。我们很小的时候就将阅读面部表情作为一种基本的生存技巧,并在成年后连续依赖这种技巧来与社会领悟、实现进步以及交配,并将其作为一种持续的威胁评估方法。以是我们对微表情非常敏感,以是AI换脸技能终需对微表情表达进行处理。
事与愿违
虽然AI换脸技能革命带来了在当代电影和电视中插入“经典”电影明星的可能性,但人工智能无法以更兼容的定义和质量来拍摄之前的经典作品,而这对用户来说也很主要。
假设重现Boba Fett中的Hamill形象就须要一个演习好的 AI换脸模型,那么就须要利用Hamill在制作《绝地归来》(Return of the Jedi)时,30岁出头样子附近的片段作为演习数据。
这部影片采取伊士曼彩色负片250T 5293/7293胶片拍摄,当时被认为较好的中等偏细颗粒度的250ASA乳剂,在80年代末就已经从清晰度、颜色范围和保真度等方面被超过。在当时的经典之作《绝地归来》中,乃至连主角的特写镜头都没有,这使得图片颗粒度问题更加主要。
Hamill 在《绝地归来》(1983)中的一些镜头。
此外,我们常日会对以Hamill为主角的视觉殊效镜头通过光学打印机处理,来增加胶片的颗粒度。卢卡斯影业也已经通过在档案馆中处理保存原始底片和几个小时未利用的原始镜头,办理了颗粒度问题。
同时为了丰富和多样化AI换脸数据集,我们常日会征采演员一个韶光段内的所有作品。而Hamill在1977年经历车祸后外面有所变革,并且在参演完《绝地归来》后险些立即开始了他作为著名配音演员的第二职业,这就导致其数据素材过少,无法得到性能较好的AI换脸模型。
表情范围是否有限定
如果你想要AI换脸模型完成演员的夸年夜表情,那你须要广泛网络这些不常见面部表情的原始镜头。但很有可能在与年事相匹配的镜头中不包含这种夸年夜表情。
例如,当《绝地归来》开始主线剧情时,Hamill已经可以基本节制自己的感情了。如果这时你想用《绝地归来》的数据演习一个Hamill的AI换脸模型,你就须要一些限定范围内的感情数据和不常见的面部表情,而不是他出演的那些早期作品。
你可能认为在《绝地归来》中Skywalker碰着巨大压力时,会供应比较夸年夜、有效的表情素材。但实际上这些场景中的脸部表情素材须臾即逝,并且还受动作场面的运动模糊和快速剪辑的影响,导致素材无法得到有效利用。
概括:表情的领悟
如果真的用AI换脸模型完成Boba Fett中Skywalker角色,那么他只能表现有限的表情范围,这不但是由于原始素材的短缺。AI换脸模型在编码器-解码器演习过程中寻求一种通用模型,该模型能够从成千上万幅图像中成功提取主要特色,并考试测验得到AI换脸数据集中没有或少见的面部角度。
如果AI换脸模型不具备这种灵巧性,那它只能在每帧画面的根本上进行复制和粘贴,无法考虑韶光上的连续性或背景信息。
而且该技能的发展可能会捐躯表情的真实性,任何“细腻”的表情都有可能不是真实的。我们的脸像100个设备精良的管弦乐队一样合营演奏,而AI换脸软件至少短缺了里面的弦乐部分。
感情的表达差异
并不是所有的面部动作及其对我们的影响都是统一的,比如在罗杰·摩尔(Roger Moore)身上看起来心不在焉的挑眉动作,在赛斯·罗根(Seth Rogan)身上就显得不太老练。如果将玛丽莲·梦露的迷人魅力,利用 AI 换脸模型强加到一个充满“愤怒”和“不满”感情的角色(比如Aubrey Plaza在Parks and Recreation第七季中扮演的角色)上时,就会传达出悲观感情。
因此,在A、B人脸数据之间的相同像素并不一定对模型表达相同的感情起浸染,但这是演习前辈的 AI 换脸开源模型的条件。
我们期望的AI换脸模型,不仅能够识别表情并推断感情,而且能够表现诸如愤怒、迷人、无聊、怠倦等高层次观点,并将这些感情及干系表情在两个身份中进行不同表达,而不是纯挚在嘴巴或眼睛的位置上进行复制。
本文系作者个人观点,不代表本站立场,转载请注明出处!