摘 要:

特约文章丨智能创意时代的视觉表达:可控图像合成方法进展研究_图像_办法 云服务

本文从可控图像合成方法的分类和评估系统到现有寻衅和未来研究方向,全面系统地回顾了可控图像合成领域的研究进展。
首先,详细先容了几种具有代表性的深度天生模型;接着根据掌握模式的不同,将现有可控图像合成方法划分成条件可控图像合成方法、基于GAN 反演的可控图像合成方法和因果可控图像合成方法三类;末了,谈论智能化创意时期可控图像合成领域中的几个开放性问题和未来发展方向。

关键词:

智能创意;可控图像合成;天生式模型;因果表示学习

0 弁言

图像合成是打算机视觉和图形学领域的一个具有寻衅性的领域,已经广泛的运用于图像天生、图像 - 图像转换、图像编辑等各种场景。
它旨在通过学习从一个源域(例如图像、文本、标签乃至噪声)到图像的映射关系,从而天生包含某些特定期望内容的目标图像。
在当前大规模天生模型发达发展的时期,各种前辈的天生式模型(如天生对抗网络、变分自编码器、流模型、Transformer、扩散模型等)为数字艺术的创作供应了前所未有的机遇。
只管天生高分辨率、高保真度的多样化艺术图像仍旧是数字艺术领域的紧张目标,然而,对付天生图像的可控性的追求已经成为艺术创作者们极为重视的方向。
以艺术创作为例,数字艺术图像的可控性表示在诸多方面,如图像的风格、艺术元素、色彩搭配等等。
这种可控性的实现每每可以通过引入额外的信息到天生模型中来实现,这些额外的信息可以是文本输入,比如“天生一幅未来科技感的抽象画”;或是图像输入,如风格参考图像、草图图像或边缘图像等。
可控图像合成方法的核心理念在于许可用户在天生或编辑图像的过程中,直不雅观地辅导所需的图像内容,看重用户对内容、工具位置与方向、背景等方面更精准节制的能力。
以实例而言,当用户希望将一张真实图像转变为梵高着风的图像时,可通过供应梵高画作或者简要描述(例如“梵高着风”)来实现图像的风格转换。
这种可控性的设计使得艺术家能够更加专注于所需图像的天生,为创作者供应了更强大、更精准的创尴尬刁难象。
这不仅丰富了数字艺术的创作手段,同时也知足了个性化和定制化艺术需求,推动了数字艺术领域的创新和发展。
值得一提的是,可控图像合成看作是一个聚焦的图像天生,它专注于天生图像的特定部分。

根据掌握模式的不同,现有的可控图像合成方法可以分为三类,即条件图像合成方法、基于天生对抗网络(GAN)反演的图像合成方法和因果可控图像合成方法。
图 1 展示了概率视角下这三种不同的可控图像天生方法。

图1 概率视角下的可控图像天生

条件可控图像合成方法旨在借助于给定的一组特定先验信息(如属性标签、文本描述、语义分割图、关键点、语音、生理旗子暗记等)来辅导图像天生。
深度天生模型是实现条件可控图像合成方法最盛行的范式,特殊是变分自编码器、GAN、扩散模型和Transformer。

条件可控图像合成方法通过已知图像与其对应条件标签的联合分布,以此来天生新的图像。
正式地说,条件图像合成方法通过学习演习数据集中图像 X 及其相应的条件标签 Y 的联合分布 P(X,Y) 来建模条件概率 P(X | Y) 。
以数字艺术图像为例,用户可以通过给定条件 Y(如“抽象风格”)来天生对应风格的艺术图像。
然而此类方法在处理多变量问题时可能会失落效,由于在现实场景中,不雅观察到的类和未不雅观察到的变量之间可能存在繁芜的关联和依赖关系。
当我们设置条件以掌握不雅观察到的类时,未不雅观察到的变量可能由于其与不雅观察到的类之间的关系而发生变革,导致天生的图像涌现不肯望的变革。
简言之,条件模型在处理繁芜场景时可能无法完备捕捉所怀孕分的相互浸染,难以实现细粒度的可控图像合成。

与条件可控图像合成方法不同,基于 GAN 反演的方法从表示学习的角度出发,利用编码器来提取图像的潜在表示(潜在编码),并进一步借助于预演习好的属性分类器,或者其他大略的图像统计信息来创造潜在空间中语义故意义的方向,从而实现对图像中特定部分的掌握。
仍旧考虑上述的艺术图像,基于 GAN 反演的方法可以将输入艺术图像的潜在编码沿着在潜在空间中学习到的语义方向移动来改变艺术图像的风格、色彩,以及图像中的某些特定目标物体的形状、大小等。

与条件可控图像合成方法类似,基于 GAN 反演的方法可以通过学习联合分布 P(X,Y,Z)建模条件分布 P(X | do(Y ),Z),个中 Z 代表潜在表征,常日是不可不雅观察的。
通过改变潜在代码 Z,用户可以通过优化 P(X | Z)来改变图像中的特定属性或者部件。
值得把稳的是,学习解纠缠表征是基于 GAN 反演的方法的一种分外情形,它可以清楚地将图像的底层构造分离成不相交的部分。
换句话说,潜在编码 Z 中的每一个维度都表征了图像中单个部分或属性。

前述两种方法基于演习分布和测试分布匹配的假设。
然而,由于存在数据选择偏差,模型随意马虎学习到不稳定的虚假干系性,从而导致天生图像的多样化变得差强人意。
考虑一个天生模型旨在从输入文本描述中天生具有艺术风格的图像的情景。
在天生模型演习中,由于演习数据中艺术家作品与特定文本描述的干系性,天生模型可能在测试阶段展现虚假干系性,即认为文本中的特定词汇或主题与艺术风格密切干系。
这可能导致天生的图像过于倾向某位艺术家的风格,而忽略了用户输入文本中多个可能的风格元素。
因此,办理这一问题须要考虑一组分布,每个分布与一个可能的操作干系联,以更好地平衡多样性。
因果可控图像是通过探索行为与期望图像实体之间的因果关系,学习图像天生机制中的内隐因果表示来处理这些分布。
该类方法在统计模型中引入了一个新的算子 do(Y )来表示这种行为,表示对 Y 的操作而不是不雅观察,此时的优化目标变为 P(X | do(Y ))。
这些因果可控天生模型能够通过勾引天生模型对图像部件或属性,进行干预、仿照操作和去除虚假干系性来学习因果关系。
通过这种办法,用户可以通过显式地理解不同实体如何相互影响,直接操纵变量 Y 来掌握图像中的实体。
因此,为了帮助读者对数字艺术中可控图像合成方法进展有一个别系的理解,本文全面回顾和谈论近年来提出的可控图像合成方法。

1 可控图像合成

1.1 条件可控图像合成方法

条件图像合成通过对给定先验信息的图像条件分布进行建模,实现对输入图像的可控合成或编辑。
根据输入先验模态的不同,条件可控图像合成方法可分为五大类。

(1)标签掌握,包括类标签、语义分割图、图像布局、场景图等;

(2)视觉掌握,如草图图像、灰度图、边沿图像、低分辨率图像或部分图像块;

(3)文本掌握,即给定一个文本描述来合成相

应的图像,也称为文本- 图像合成;

(4)音频掌握,即不同的声音旗子暗记,包括人的措辞、动物的叫声、车辆的声音等;

(5)多模态掌握,即采取上述四种模态信息中的两种或更多种。

图2(a)展示了条件可控图像合成方法中掌握信息的类型。

图2 可控图像合成方法分类

基于标签掌握的方法,常日借助给定的图像属性、图像布局、语义分割掩码或场景图为图像合成供应掌握信息。
然而,这类方法每每须要额外的标签数据或配对演习图像。
获取配对演习数据和标记数据的过程十分困难,常日涉及高昂的韶光本钱,这对此类方法的发展造成了极大限定。
视觉掌握进一步促进了图像合成过程中的交互式操作和精确处理,得益于视觉掌握固有的传达空间和构造细节的能力。
与视觉掌握不同,文本掌握供应了一种更为灵巧的办法来表达和阐释视觉观点,为图像合成供应了更大的创造性和多样性。
然而,由于文本描述可能存在歧义,使得天生图像变得难以预测。
例如,当用户给出一个模糊的文本描述时,如“一个具有未来感的城市景不雅观”,天生模型可能会面临理解和呈现未来感的详细细节的寻衅,导致天生的图像不符合用户预期。
语音掌握方法也存在类似的问题,因此,为了综合多种模态条件信息的上风以天生精准可控的高质量艺术图像,许多基于多模态条件信息的可控图像合成方法已经涌现。
此类方法采取各种掌握条件的组合,如边缘图 + 文本描述、语义分割图 + 文本描述、人体姿势 + 布局,以及语义分割图 + 草图等,以更精确地辅导合成过程。
例如,ControlNet 支持文本提示和附加输入条件,如边缘图、分割图、关键点等来精确掌握图像合成;GLIGEN 采取门控自把稳层来处理条件,将新的条件信息(如边界框信息)输入到预演习模型中,以提高质量和可控性;还有一些方法可以根据不同的输入办法,天生措辞、图像、视频或音频等多种输出办法的组合。

1.2 基于 GAN 反演的可控图像合成方法

图 2(b)中展示了基于 GAN 反演的方法流程,包括如何获取真实图像的潜在编码、如何在 GAN 空间(包括潜空间和参数空间)中找到故意义的方向,以及如何实现可控图像天生三个关键模块。

(1)潜在编码获取。
现有的潜在编码获取方法大致可分为基于优化的方法、基于编码器的方法和稠浊方法这三类。
基于优化的方法将给定图像与重构图像之间的差值最小化来得到最优潜在编码,该类方法可以得到较高的图像重构质量,但这种优化问题高度非凸,随意马虎陷入局部最优解,因此无法通过优化单个潜在编码重构任意图像。
基于编码器的方法通过学习附加的编码器来获取真实图像的潜在码,虽然更方便,但难以得到高保真度的重修图像。
因此,许多方法将上述两种方法相结合(称为稠浊方法),首先利用编码器得到初始潜在编码;然后对初始潜在编码进行优化以得到能够准确重构源图像的最优潜在编码。
该方法极大地减轻了基于优化方法获取初始潜在编码的难度,同时担保了重构图像的质量。

(2)GAN 空间探索。
根据是否采取监督信息,现有的潜在空间探索方法可以分为基于监督的方法和非监督的方法两种。
基于监督的方法常日是随机抽取大量的潜在编码,然后用预先演习好的天生器合成一组图像来构建标注数据集,用于演习潜在空间中的分类器。
例如,InterFaceGAN 通过演习单独的支持向量机在潜在空间中得到二元属性的线性超平面,然后利用得到的超平面来实现图像属性操作的目的。
然而,此类方法依赖于预定义的分类器,限定了图像编辑的灵巧性。
基于无监督的方法也取得了令人振奋的成果。
例如,常日 Härkönen et al.(2021)利用主身分剖析在 GAN 潜在空间中探求主要方向;Shen et al.(2021)提出了一种封闭因子分解算法,通过直接分解预演习的天生器权重来实现潜在语义创造。
该方法不依赖于数据采样和模型演习,在潜在空间中创造语义故意义的编辑方向。
但是,这类方法每每无法实现高精度图像编辑,难以实现实时交互式图像合成。

(3)图像可控合成。
现有的方法常日将编辑过的潜在代码(沿着学习到的语义方向编辑潜在编码)输入到现成的、演习有素的天生器中,以得到高分辨率、高保真度的合成图像。
常用的预演习天生器紧张有BigGAN、PGGAN、StyleGAN、StyleGAN2等。
值得把稳的是,由于利用预演习天生器限定了基于GAN 反演的方法的表达能力,使得天生图像缺少多样性。

1.3 因果可控图像合成方法

因果可控合成方法旨在通过建模图像中各属性之间的因果关系,天生更加合理的图像。
该方法承认图像属性之间的相互依赖性,从而产生更严格的属性变革和增强的可控性。
以艺术图像天生为例,显然,艺术图像中的各种属性并不是相互独立的,如不同的颜色、笔触,以及画布纹理都能够反响出不同的情绪和艺术风格。
而条件可控方法和基于GAN 反演的方法每每假设属性之间相互独立,从而天生的图像每每会产生不合理的变革。
因果可控图像天生方法则考虑了属性之间的因果关系,并许可因果干预操作和反事实图像天生。
以人脸画像为例,微笑导致嘴巴伸开、眼睛变小,即眼睛形态 <- 微笑 ->嘴巴形态。
在因果可控图像天生方法中,微笑(缘故原由属性)的改变会引起嘴巴和眼睛形态(结果属性)的变革;反之,嘴巴和眼睛(结果属性)的改变则不会导致微笑(缘故原由属性)的变革。
图 2(c)中展示了两种范例的因果可控图像合成方法。

根据是否给定因果图或者因果序作为模型先验,现有的因果可控天生方法可以分为基于因果先验的方法和基于因果表示学习的方法两种。
前一种方法利用给定的因果图学习一个因果天生模型来实现因果可控图像合成,例如 CausalGAN,DEAR。
这类方法须要依赖与专家知识去事先指定因果图,然而现实中很多因果关系是人类难以定义的。
另一类方法则是利用因果表征学习从数据中学习图像潜在表征之间的因果关系,如 CausalVAE,CCIG。
此类方法不仅能够实现因果可控图像天生,而且能够对学习到潜在编码实行干预操作来天生反事实图像。
然而,这种方法的性能高度依赖于学习到的因果图的质量;换言之,如果学习到的潜在表征的因果关系不理想,合成图像的合理性就会受到影响。

2 开放性问题和未来方向

只管可控图像合成方法在智能化创意时期取得了显著的进展,并表现出良好的性能,但在实际运用中仍存在许多寻衅。

有限的模型可扩展性。
由于艺术图像类型多样,不同数据集之间数据分布每每不同,可控图像合成模型常日须要在各种数据集上进行演习,因而带来了巨大的打算资源摧残浪费蹂躏。
办理这一问题的路子之一是通过演习更为通用的根本模型,以增加数据量、丰富图像种别、减小数据分布偏差等手段来提高根本模型的可扩展性。

缺少统一的图像质量评价指标。
只管有许多图像质量评价指标用于评估合成图像的质量,如SSIM、PSNR 等,但这些指标每每依赖于源图像的存在,但实际上合成图像很难获取对应的源图像。
其他一些指标,如 FID 和 IS 虽然能够评估天生图像清晰度和多样性,但要量化合成艺术图像是否能知足用户预期的效果却很困难。
因此,目前大多数合成方法仍旧采取主不雅观评价评估合成图像的质量。
如何设计一种统一的图像编辑质量评价系统,更客不雅观、全面地评估合成图像的质量仍旧是未来的一大寻衅。

多模态可控图像天生。
现有的可控艺术图像天生方法常日针对每种掌握模式(如文本掌握、语音掌握等)设计专门的方法,大多数方法只能利用一种掌握模式,很少有能够同时组合多种类型的掌握模式进行图像合成的方法。
如何将来自不同模式的多个掌握模式整合到一个统一框架中,实现更灵巧的可控艺术图像合成是未来一个值得研究的课题方向。
为实现这一目标,有必要创建一个大规模多模态数据集,个中包含来自多种模态的数据标注(语义分割掩码、文本描述、语音描述、草图、深度图等)。

伦理问题和风险。
随着人工智能天生图像技能的发展,对天生图像潜在滥用的担忧日益增加。
例如,可能涌现假造艺术品、版权纷争、隐私安全和文化敏感性等问题。
此外,可控图像合成是一项高度数据驱动的任务,这可能导致在大规模、单一数据上演习的模型放大数据集中存在的偏见,带来伦理风险。
因此,人们正在努力研究大规模模型产生的视觉操纵,以区分天生的图像和真实的图像,并追溯到它们的源模型。
其余,也该当制订相应的政策及伦理准则,以确保 AIGC 天生艺术图像技能的卖力

任运用。

(参考文献略)

黄珊珊

重庆大学博士研究生。
紧张研究方向为因果表征学习、图像天生。

刘礼

重庆大学教授;入选2022年度AI2000 人工智能环球最具影响力学者。
紧张研究方向为因果剖析、人机交互。

选自《中国人工智能学会通讯》

2024年第14卷第4期

智能创意与数字艺术专题

扫码加入学会获取更多学会资源