人工智能跨界二次元日本游戏公司用GAN生成高分辨率动漫人物_图像_姿态

2024-11-11 10:01:30 AI快讯

原文来源：DeNA

人工智能跨界二次元日本游戏公司用GAN生成高分辨率动漫人物_图像_姿态 AI快讯

「雷克天下」编译：嗯~是阿童木呀、KABUDA、EVA

导语：熟习二次元的小伙伴一定对动漫人物的换装和姿势变革不陌生。
而最近，日本网络做事公司DeNA提出了一种渐进式构造条件天生式对抗网络（Progressive Structure-conditional Generative Adversarial Networks，PSGAN），这是一种新的框架，可以根据姿势信息（pose information）天生全身和高分辨率的动漫人物图像。
接下来，我们就来看一下PSGAN是如何天生全身动漫人物，并为其添加新的姿势动作的。

最近在具有层次构造和渐进式构造的天生式对抗网络（generative adversarial network，GAN）方面所取得的进展使天生高分辨率图像成为可能。
然而，现有的方法在对工业运用来说很主要的天生构造化工具（例如，全身人物）方面存在局限性。
另一方面，虽然已经提出了可以基于构造化条件（例如，姿势和面部标志）天生图像的GAN，但是它们的图像质量不敷。
为理解决上述的局限性，我们引入了一个PSGAN，它在演习过程中利用构造化工具逐步提高天生图像的分辨率，以天生构造化工具（例如，全身人物）的详细图像。
此外，我们还在网络上施加任意的潜变量（latent variable）和构造条件，以便根据目标的姿势序列（pose sequence）天生不同的、可掌握的***。
在本文中，我们通过实验证明了这种方法的有效性，展示了具有详细的、以姿势为条件的动漫人物的512x512***天生实验结果。

天生结果概述

我们展示了由PSGAN天生的各种动漫人物和动画的例子。
我们首先利用PSGAN从随机潜变量中天生许多动漫人物。
接下来，我们通过插入与动漫人物相对应的潜值（latent value）来天生新的动漫人物。
然后，用连续的姿势序列天生内插的动漫人物的动画。

天生新的全身动漫角色

我们通过利用PSGAN插入与不同衣饰的动漫人物（人物1和2）相对应的潜值，从而天生一个新的全身动漫角色。
请把稳，这里只施加了一个姿势条件。

将动作添加到天生的动漫人物

下面展示了带有指定动漫人物和目标姿势的动画天生示例。

通过固定潜变量，并给PSGAN供应连续的姿势序列，我们可以天生人物的动画。
更详细地说，我们将指定动漫人物的表征映射到作为PSGAN输入向量的潜空间中的潜变量中。

通过将指定动漫人物映射到潜空间并天生作为PSGAN输入的潜变量，天生带有指定动漫人物的任意动画。

比来，科学家们已经在利用深度天生式模型进行自动图像和***天生方面进行了研究。
可以说，这些研究对付诸如照片编辑、动画制作和电影制作等媒体创建工具来说意义重大。

专注于动漫创作（anime creation）、自动角色天生可以引发专家去创造新的角色，同时也有助于降落绘制动漫的本钱。

Yanghua Jin、Jiakai Zhang、Minjun Li、Yingtao Tian和Huachun Zhu所著的《利用天生式对抗网络实现高质量动漫人物的天生》，聚焦于利用GAN架构实现动漫人物人脸的图像天生。
然而，尚未提出全身性人物的天生（full-body character generation）。

可以这样说，专家们提出的是仅仅聚焦于人脸图像的动漫人物图像的天生，但其质量并不知足制作动漫的哀求。

自动天生全身性的角色，并向其添加高质量的动作，这对付制作新角色和绘制动漫来说具有非常大的帮助。
因此，我们致力于天生全身性的人物图像并为它们添加高质量的动作（例如***天生）。

将全身性人物天生运用于动漫制作中仍旧存在两个问题：（i）具有高分辨率的天生，（ii）具有特定姿势序列的天生。

可以这样说，作为一个适用于各种图像天生任务的框架，天生式对抗网络（GAN）是一个最有发展前景的候选方法之一。
最近，在具有分层构造和渐进构造的GAN方面所取得的进展实现了高分辨率、详细的图像合成和文本—图像的天生。
然而，高质量天生的运用仍旧只局限于一些工具，如面部和鸟类。
对付GAN来说，天生具有全局构造的构造的工具是一个很大的寻衅，而对付具有高分辨率的天生来说也是如此。
另一方面，科学家们还提出了具有构造化条件的GAN，如姿势和面部标志。
但是，他们的图像质量还有很多的不敷之处。

我们提出了渐进式构造条件GAN（Progressive Structure-conditional GAN，PSGAN）来办理这些问题。
我们展示了PSGAN能够以512x512的分辨率天生具有目标姿势序列的全身性的动漫人物和动画。
当PSGAN天生具有潜变量和构造条件的图像时，PSGAN就能够天生具有目标姿势序列的可掌握动画。

渐进式构造条件性GAN

我们的紧张思想是渐进式地学习具有构造条件的图像表示。
PSGAN提高了具有构造条件的天生图像在每个尺度上的分辨率，并天生了具有详细姿势条件的高分辨率图像。
我们采取与Zizhao Zhang、Yuanpu Xie和Lin Yang所著的《利用层次嵌套对抗网络实现拍照文本到图像的综合》中相同的图像天生器和鉴别器体系构造，除了我们所提出的通过添加具有相应分辨率的姿态图，在每个比例的天生器和鉴别器上施加构造条件。

利用所提出的网络体系构造，图像天生通过相应的条件图渐进式的从低分辨率层到高分辨率层进行实行，这显著地稳定了演习。
这种增加使得对付天生器和鉴别器构造在每一种NxN分辨率下进行的演习都是渐进式构造条件化的，并稳定稳定了对构造条件式天生的演习。

PSGAN的Generator（G）和Discriminator（D）体系构造。
NxN白色框代表在NxN空间分辨率下操作的可学习卷积层。
N×N灰色框代表构造条件的不可学习的下采样层，这将构造条件图的空间分辨率降落到N×N。

演习数据准备

在本节中，我们将描述我们的数据集准备方法。
对付PSGAN，我们须要成对的图像和关键点坐标。
我们准备了由Unity合成的原始变身动漫人物（avatar anime-character）数据集，以及由Openpose检测到的关键点的DeepFashion数据集。

Avatar Anime-Character数据集

我们构建PSGAN的新数据集，知足三个哀求：

1.姿势多样性。
为了天生平滑和自然的动漫，我们准备了各种各样的姿势条件。

2.演习图像的数量。
通过利用Unity天生3D建模的虚拟头像，无需任何手动注释就可以得到具有关键点图的无限数量的合成图像。

3.背景肃清。
我们将背景颜色设置为白色并擦除不必要的信息，以避免对图像天生产生负面影响。

我们将一个变身的几个连续动作分成600个姿势，并捕捉每个姿势的关键点。
我们对79种服装进行了这样的处理，统共得到了47,400张图像。
我们还根据3D模型的骨骼位置得到了20个关键点。

下图显示了演习数据的样本。
动漫角色（顶行）和姿势图片（底行）。

DeepFashion数据集

PSGAN利用姿态信息在图像天生网络上施加构造条件。
我们利用Openpose从没有关键点注释的图像中提取关键点坐标。
关键点的数量是18，并且省略了少于10个检测到的关键点的样本。
短缺的关键点添补-1，其他关键点设置为1。

演习设置实验

我们利用与《用于提高质量、稳定性和变革的GAN的渐进式成长》相同的舞台设计和丢失函数。
我们展示了每阶段鉴别器的600K真实图像和构造条件，并利用了n_critic=1的WGAN-GP丢失。
为了节省CPU内存，在4×4 -128×128图像天生阶段，我们令minibatch size为16，并分别将256×256图像和512×512图像的天生器，减少至12个和5个。

我们利用M个通道来表示M个关键点的构造条件。
在每个通道中，一个像素在对应的关键点上添补1，而在其他位置上添补-1。
对付每个N×N分辨率，我们利用内核大小（kernel size）为2和步长（stride）为2的最大池化（max-pooling）作为构造条件的还原层（reduction layers）。

Avatar Anime-Character数据集：我们利用Adam演习网络，个中β1=0，β2=0.99。
我们在4×4-64×64图像天生阶段利用α=0.001，并将其逐渐降落至128×128图像的α=0.0008，256×256图像的α=0.0006以及512×512图像的α=0.0002。
姿势关键点（pose keypoints）的数量是20。

DeepFashion数据集：我们利用Adam（α=0.0008，β1=0，β2=0.99）对各阶段的网络进行演习。
姿势通道（pose channels）的数量为18。

PSGAN、PG2、Dinentange PG2和渐进式 GAN之间的比较

本文中，我们研究了PSGAN天生图像的多样性。
下图展示了PSGAN天生的图像，个中潜变量（latent variables）是随机设置的。
PSGAN为每个姿势条件（pose condition）天生各种各样的图像。

接下来，我们评估了PSGAN的再现性（reproducibility），并与以姿势为辅导的人的图像天生（Pose Guided Person Image Generation，PG2）]和分离的人的图像天生（Disentangled Person Image Generation，DPG2）进行了比较。
PG2和DPG2须要源图像和相应的目标姿势，以将源图像转换为具有目标姿势构造的图像。
同时，PSGAN根据潜变量和目标姿势天生具有目标姿势构造的图像。
与PSGAN比较，PG2和DPG2更易受到源图像和相应目标姿势的影响。

下图展示了PSGAN、PG2和DPG2的天生图像。
我们省略了PG2和DPG2的输入图像。
从中我们可以不雅观察到，由PSGAN天生的图像与由PG2和DPG2天生的图像一样自然、真实。
由于PSGAN也是由潜变量天生图像，因此，从理论上讲，PSGAN可以和PG2和DPG2一样，天生多种多样的图像。

末了，我们评估了PSGAN与渐进式 GAN的构造同等性。
下图是渐进式GAN和PSGAN天生图像的比较。
我们创造，渐进式GAN无法天生由其整体构造组成的构造目标的自然图像。
另一方面，PSGAN可以通过在每个度量上施加构造条件，来天生由其整体构造（例如：左侧两幅图）组成的近乎真实的图像。

结论

本文展示了由PSGAN天生的流畅、高分辨率动画。
我们表明，PSGAN可以在512×512目标姿势序列的根本上，天生全身动漫人物和动画。
在演习过程中，PSGAN可通过改进每个尺度上的构造条件，逐渐提高天生图像的分辨率，并为构造化工具（例如：全身人物）天生详细图像。
由于PSGAN天生的图像具有潜向量（latent vectors）和构造条件，因此PSGAN能够天生具有目标姿势序列的可掌握动画。
我们的实验结果表明，PSGAN可以根据随机潜变量天生多种动漫人物，并以连续的姿势序列为构造条件，使动画更加流畅。
由于实验环境有限，例如一个化身和几个动作，我们操持在不同条件下连续进行实验和评估。

未来，我们操持开拓Avatar Anime-Character数据集。

原文链接：http://dena.com/intl/anime-generation/