量子位 | "大众号 QbitAI

AI视频创作一条龙!达摩院寻光平台炸场WAIC打破可控编辑难题_视频_达摩 文字写作

AIGC时期,***创作这事儿真的不一样了。

就像这样,轻轻一圈,选定目标急速变身单独图层,再丝滑嵌入不同的背景***,场景变换so easy~

想要调度一下镜头角度,交给AI,同样能一键完成:

还能一键肃清、修正目标:

后期再也不用加班加得手抽筋(doge)。

划!
重!
点!
这还不是实验室里的单一技能demo,而是立时就要开放内测,让创作者们直接可以用起来的一站式AI***创作平台——“寻光”。

便是说,传统上分散在不同制作流程中的剧本创作、分镜图设计、***素材编辑等步骤,现在都可以在AI加持下,在同一个平台上流畅完成。

这便是阿里达摩院在上海天下人工智能大会上带来的最新惊喜。

演示一出,现场的不雅观众都坐不住了。

而达摩院官方,也透露出了AI***领域新成果背后更大的“野心”:

不对标Sora,而是走自己的路,希望更快让AI生产力匹配人类想象力。

“寻梦光影间”

所谓寻光,意指“寻梦光影间”:

即通过人工智能技能,供应全新的***创作模式。

与Sora等今年备受关注的AI***天生模型不同,寻光关注到的,是“Sora之后,***事情流的变革”。

达摩院认为,Sora等AI***天生模型给足了人们对***生产办法彻底变革的想象力,但一方面,AI***内容的可控编辑,包括对繁芜剧情的理解、天生工具的同等性等,仍旧是当前算法所面临的一大寻衅。

另一方面,业界尚没有统一的AI***编辑平台,能让创作者们一站式体验到AI加持的***创作全流程。

举个例子,OpenAI创始成员Andrej Karpathy最近也玩上了AI***,整出了个AI版《傲慢与偏见》。

在这个短片的制作过程中,他用到的工具包括Claude、Ideogram、Luma、ElevenLabs、VEED……而他本人也抱怨说:

诚笃说这个事情流非常混乱,工具与工具之间存在大量的复制粘贴,3个片段的大略小***就花了我大约1个小时的韶光。
这里面存在一个巨大的机会。
谁正在打造100%的AI原生***制作平台?

达摩院打造寻光,定位为PUGC一站式AI***创作平台,目标正是针对以上问题,用AI能力重塑传统***制作的全流程。

详细来说,寻光可以赞助用户创作剧本、分镜图等,支持对天生及上传素材进行丰富的AI编辑,包括人物掌握、场景掌握、运镜掌握、目标新增/肃清/修正等10多种功能。

并且在交互方面,主打“让***编辑像操作PPT一样大略”。

以分镜设计环节为例,上传到寻光的原始***素材,会由算法切分成多个分镜头。

在创作空间里,用户可以方便地查看到每一个分镜头,并用大略的拖拽操为难刁难其进行调度。

在新建的空缺分镜中,除了添加已有素材,寻光平台还支持用户调用多种多模态天生模型,生产新的内容。

而在编辑功能方面,寻光强调的是风雅化的编辑和掌握:在AI加持下,依据用户意图,在语义层面而不是像素层面实现编辑;同时,***里的人体、人脸、前景、背景等任意局部目标,都可以进行风雅化的编辑和修正。

在现场,达摩院视觉技能实验室高等算法专家陈威华着重提到了基于***图层的编辑能力。

以前景图层功能为例,用户通过文本输入,即可天生符合描述的、具有透明背景的***,并且一键就能将其领悟到其他背景***当中。

寻光也支持图层拆解功能,用户在***第一帧选择想要提取的物体,算法就会自动跟踪,把整段***中对应的目标拆解出来,形成独立的带透明背景的***图层。

飞舞的头发也扣得很风雅的那种:

其余,在对***全局元素的编辑方面,风格迁移上,寻光平台供应了20+不同风格。

运镜掌握上,旁边平移、高下平移、推进拉远、旁边环抱等都能支持。

在对***局部元素的编辑方面,除了目标肃清,寻光平台还能实现人脸的精准掌握:

△***取自国风武侠动漫《少年白马醉东风》第三集

轻轻一拉实现运动掌握:

如此看来,寻光可以说集成了市情上最完备的AI编辑功能,把一全体***制作事情流都给AI化了。
比较于在各种工具间跳来跳去,在传统事情流中零散地插入AI能力,属实更加方便、高效了。

重塑***创作事情流

探索更理解物理天下规律、天生时长更长、天生效果更惊艳的多模态的模型,是当今工业界和学术界都密切关注的方向。

但当更强大的AI面世后,人们能否更快节制这种新型生产力,同样是值得关注的话题。

在Karpathy挑起话题之后,就有不少网友表示确实戳中痛点:

从一个工具转移到另一个工具会毁坏事情状态,说实话,这限定了这些工具对效率的提升。
AI***创作须要统一的UI。

陈威华也在WAIC现场谈到:

本日我们正处在AI***天生这场巨大变革之中,“工欲善其事,必先利其器”,我们希望寻光***创作平台便是每一个人手中的利器,是每一个人的专属***事情室,在这个平台上,AI与创作者之间能够更紧密高效地协作。

为此,寻光平台背后的达摩院视觉技能实验室已做了大量技能储备。

该实验室致力于多模态视觉旗子暗记的理解与天生技能研究,当前的重点研究方向包括更加精准的图像/***/3D内容天生,更加可控的图像/***/3D内容编辑,更加高效的天生框架,多模态的理解-天生框架等。

AIGC在全天下范围内引爆热潮,核心在于带来了生产力彻底变革的想象空间。

现在,解放生产力的第一步,已经开始落地实践,你期待吗?

官网地址:https://xunguang.damo-vision.com/

— 完 —

量子位 QbitAI · 号

关注我们,第一韶光获知前沿科技动态签约