【新智元导读】***天生赛道又起新秀,而且还是二次元定制版!
稳定产出电影级画面,一键文/图天生***,纵然是「手残党」也能复刻自己喜好的动漫作品了。

国产动漫视频AI火了!二次元老婆随意捏哥特、梦幻机甲一键get_模子_视频 绘影字幕

现在,各位二次元萌新们,不用再等「太太」出图啦!

我们不仅可以自己产粮,而且还是会动的那种。

如今,AI***天生这个赛道,可谓是杀得风起云涌。
这些更新更强的模型,思路和Scaling Law一脉相承,主打一个「又大又全」。

然而出图效果如何,全靠「抽卡」运气,更别提真实***天生的胆怯谷效应、动漫***天生的画风突变。

和大措辞模型类似,在运用落地上想要通盘通吃的,就很难根据行业特色和专属诉求去进行专注的做事。

尤其是对付「二刺螈」

毕竟,作为普通动漫爱好者,想要和喜好的角色同框出镜,或二创,没有绘画技能也只能空想。

从脚本构思、关键帧绘图、骨骼绑定到动态渲染,都须要付出大量的韶光和精力。

来源网络

最近,

只需通过笔墨提示或者上传图片等大略操作,即可一键得到天生高质量同等性强的动漫内容,让喜好的角色维妙维肖地涌如今「同人***」中了!

大陆站传送门:yoyo.avolutionai.com

国际站传送门:yoyo.art

同人***一键get

可以看到,YoYo不仅创作界面简洁,而且操作起来也非常随意马虎上手。

而且最主要的是,对付动漫爱好者和创作者来说,二次元氛围沉浸感极强。

不管是提示词还是图片,都有着非常丰富的高质量素材——几十个盛行人物角色,以及通用、平涂、机甲等各种风格,可谓是一站式集齐,让人直呼过瘾。

这些定制选择,可以在天生过程中掌握角色的设计、故事走向,乃至是每一个细微的动画效果。

图文生动漫

话不多说,先来一波实测。

樱花飘落、颔首浅笑,再加上精细的的背景和服装,日漫的氛围感一下就出来了。

prompt:穿着和服的女子在开满印花的庭院

燃烧的烛炬,火焰般的眼眸,玄色的lolita,诡异的氛围,拿捏得十分到位。

prompt:最高品质,精品,插图,超级详细,(1女性:1.2),及肩长发,哥特衣饰,闹鬼的大厦,拿着烛炬,诡异

接下来,再看看出色的人物同等性。
(白毛控狂喜)

从嫉恶如仇的屠龙少女——

prompt:1girl ,hair between eyes ,white hair, blue eyes,long hair,no hat,white dress ,elf,pointy ears, fight with a big dragon, sword

到林间闲步的青涩女孩——

prompt:1girl,white hair,elf,blue eyes,long hair,pointy ears,sitting in river,stars,white dress,pink canvas backpack,taking a walk in the forest

亦或是坐在水中的精灵公主——

prompt:1girl,white hair,elf,blue eyes,long hair,pointy ears,sitting in river,stars,white dress,sitting quietly on the water

顺便一提,中英稠浊的prompt也是可以支持的。

prompt:1girl,hair between eyes,white hair,blue eyes,long hair,no hat,white dress,elf,pointy ears,瀑布,坐在瀑布下面,双手合十,闭眼

从上面这些动图可见,AI还原出了精准而富有表现力的人物表情,让短短几秒的***充满了故事感。

头发、蒲公英和身上的裙子,一同在随风飞舞非常自然。

prompt:一个紫色长发的女孩,在长满蒲公英的草原迎风微笑,天空中闪烁极光

落下的雪和杯中的热气升腾,纵然相互交织在一起也能一眼分清。

prompt:一个围着围巾的短发女孩,在大雪天喝着热茶

一台巨大的「萝卜」矗立在城市里,林立的高楼描述出震荡的场景。

prompt:机甲,无人,独自,云,武器,科幻,发光,天空,拿着武器,建筑物,城市

除了人物角色之外,背景的天生也非常有电影镜头的觉得。

prompt:梦幻的森林大陆的鸟瞰全貌,有森林湖泊,有小小的城镇,也有远远的高山

prompt:一个古朴小镇热闹的街市

从此,不论我们脑海有多么奇幻的场景,都可以让它在动画中还原出来了!

prompt:梦幻的森林大陆上的森林,小兔子,小松鼠,五彩的蘑菇

prompt:一只通体洁白,角生梅花的鹿站在雪山顶峰眺望远方,身边发出微光

画面一键「复刻」

在「景致」这个场景中,我们可以一键「复刻」同好们天生的心仪场景。

选择「取材」后,模型根据同样的prompt,就天生了类似风格的图。

接着点「天生***」——穿着JK制服的长发女孩,和弹钢琴的白色猫猫,这画面切实其实不要太美。

天生模型

当前AI天生的***存在两大技能毛病,一是可控性,二是天生速率。

以往的模型大多利用图像或文本指令作为天生条件,但短缺对***中动作的精确、交互式掌握。
在天生***时速率也非常慢,这对付C端运用来说也会严重影响用户体验。

为理解决这些模型毛病,鹿影团队长期专注于技能攻关,并取得了丰硕的成果,揭橥了多篇「干货满满」的高水平论文。

Motion-I2V

今年1月刚刚揭橥的Motion-I2V论文提出了创新的图生***框架,对付繁芜图像,也能天生同等且可控的***。

论文地址:https://arxiv.org/abs/2401.15977

之前的方法,例如AnimateDiff架构,常日会让模型同时卖力运动建模和***天生,直接学习从图像到***的映射关系。

论文提出,这种合二为一的做法会导致细节上的动作失落真和时序不一致。
Motion-I2V则选择解耦这两个过程。

第一阶段利用基于扩散模型的运动场预测器(motion field predictor),参考给定的图像和文本提示,专注于像素级的运动轨迹推断,预测参考帧和所有未来帧之间的运动场映射。

第二阶段则提出了一种新颖的运动增强时序层,用于增强模型中有限的一维韶光把稳力。
这个操作可以扩大时序感想熏染域,减轻了同时学习时空模式的繁芜性。

有了第一阶段轨迹预测的辅导,第二阶段的模型能更有效地将所给图像的特色传播至合成的***帧,加上稀疏的轨迹掌握网络Control-Net,Motion-I2V还可以支持用户对运动轨迹和运动区域的精准掌握。

与仅依赖文本prompt比较,这种方法为I2V过程供应了更多的可控性。
此外,第二阶段的模型还天然地支持零样本天生,以及***到***的转换。

与现有方法比较,纵然在运动幅度较大、视角变革的情形下,Motion-I2V也能天生更同等的***。

从demo中可以明显看出,比较Pika、Gen-2等模型,Motion-I2V的确能仿照出更好的运动形态,视觉细节也更逼真。

AnimateLCM

在文生***方面,今年2月揭橥的AnimateLCM模型公开了源代码和预演习权重,仅需4个迭代步骤就能天生质量精良的动画,因此受到了开源社区的广泛欢迎,仅单月***量就超过6万。

仓库地址:https://huggingface.co/wangfuyun/AnimateLCM

文章提出,扩散模型的虽然有精良的天生效果,但个中迭代去噪过程包含30~50个步骤,打算量很大且比较费时,因而对实际运用造成了限定。

团队从潜在同等性模型(Latent Consistency Model,LCM)中得到启示,旨在用最少步骤天生高质量的逼真模型。

论文地址:https://arxiv.org/abs/2402.00769

AnimateLCM没有直接在原始的***数据集上进行演习,而是从演习好的Stable Diffusion模型中蒸馏出先验知识。
并且采取理解耦策略,将图像天生和运动天生的先验分开,再对图像模型进行3D膨胀,能够提高演习效率和天生质量。

此外,为了让AnimateLCM模型更好地适应社区中被广泛运用的各种适配器(adapter),论文提出了一种不须要额外西席模型的「加速」策略来演习适配器。

实验证明,这种策略行之有效。
搭配图像条件适配器或布局条件适配器时都有很好的兼容性,不仅没有危害采样效率,还实现了模型功能的扩展。

除了文生***和图生***,AnimateLCM还能在零样本情形下进行高效的***风格迁移,或者用于扩展***长度,最多可达到基本长度的4倍,并且实现了近乎完美的同等性。

Phased Consistency Model

虽然AnimateLCM已经取得了很好的效果,但开拓团队并没有就此止步,而是选择在此根本上进一步探索。

在5月揭橥的最新论文中,作者指出,潜在同等性模型依旧存在一些实质毛病。
论文逐个调查了这些毛病背后的成因,并提出了改进过的阶段同等性模型(Phased Consistency Model,PCM),实现了显著的提升。

论文地址:https://arxiv.org/abs/2405.18407

CM和LCM的设计局限紧张表示在三方面:

1. 可控性:在图像和***天生中,有一个名为CFG的主要参数(classifier-free guidance),掌握文本提示对天生结果的影响程度。
CFG值越高,图像或***与提示的干系程度就越高,但也提高了画面失落真的可能性。

Stable Diffusion模型在较大的CFG值范围内(2~15)都能天生出较好的画面,但LCM可接管的CFG值一样平常不能超过2,否则就会涌现过度曝光问题。

无法提高CFG值,大大限定了文本提示对天生***的可控性。
此外,LCM对负面提示也非常不敏感,比如下图的第一个例子中,模型会「堂堂皇皇」地忽略提示哀求,偏要天生一只带玄色毛的狗。

2. 同等性:这两种模型都只能利用随机的多步采样算法,因此纵然采取同一个种子开始天生,在推理过程中也能看到各步骤之间明显的不一致。

3. 效率:除了上面两个硬伤之外,作者创造,LCM在少于4步的少步骤推理中无法给出较好的天生结果,因而限定了采样效率。

PCM的架构设计就很好地办理了以上三个毛病:

PCM模型支持确定性采样,能够保持多个推理步骤中的图像同等性PCM可以利用LCM中不可用的普通常微分方程求解器,代替原有的CFG增强的求解策略,从而让模型能够接管更高的CFG值在隐空间中引入对抗性丢失来确保图像分布的同等性,大大提升了少步骤推理情形下的天生效果

履行了针对性的办理方法后,PCM在1~4步推理时天生的***效果比较LCM有了肉眼可见的显著优化。
后续的溶解实验也证明了PCM这些创新设计的必要性。

从MotionI2V到AnimateLCM,再到最新的PCM,鹿影团队逐步的迭代中不断寻求打破和提升,实现了PCM的惊艳效果,模型的前辈性能从基准测试的得分和横向比拟中就可见一斑。

在单步推理天生图像时,PCM方法在2个数据集、5个指标上险些都超过了Stable Diffusion-Turbo的得分,同等性得分的上风更加显著,从SD-Turbo的0.71提升至0.81。

当推理步骤从第1步逐渐增大到第16步时,这种上风依旧明显。
多数情形下,利用普通ODE求解方法的更胜一筹。

利用CLIP分数、光流估计、CLIP同等性三个指标量化评估***天生质量时,PCM模型依旧在少步骤推理(≤4步)中取得了明显的上风,比较其他两个Diffusion架的构基线模型DDIM、DPM以及AnimateLCM都有大幅度提升。

值得一提的是,鹿影科技的研发并非一朝一夕之功,他们的技能创新持续数年并不断迭代。

比如2022年提出的新颖架构FlowFormer在当时的Sintel光流基准测试中排名第一,2023年发布的***光流估计框架VideoFlow在所有公共基准测试上刷新了SOTA。

论文地址:https://arxiv.org/abs/2203.16194

论文地址:https://arxiv.org/abs/2303.08340

MPI Sintel是由华盛顿大学、佐治亚理工学院和马克·普朗克研究所的多名研究职员共同开拓的开源数据集,是目前光流算法领域利用最广泛的基准之一。
个中的样本很好地代表了自然场景和运动,对当前的方法极具寻衅性。

在最新的排行榜上,前五名中VideoFlow系列就霸占了三个位置,个中ViCo_VideoFlow_MOF更是排名第一,足可见鹿影团队的技能沉淀和硬实力。

一贯以来,我们高喊国漫崛起,但新作品发展迟缓,始终未能实现真正的打破。

未来,有了AI的入局,会让动漫制作的现状和创意,得到极大地改进。

对付鹿影科技,接下来要做的是,让科研成果迅速转化,让AI工具帮助原创动漫实现指数级增长。