AI创作一条龙！达摩院寻光平台炸场WAIC打破可控编辑难题__达摩

2024-11-24 04:20:47 文字写作

量子位 | "大众号 QbitAI

AI视频创作一条龙！达摩院寻光平台炸场WAIC打破可控编辑难题_视频_达摩文字写作

AIGC时期，***创作这事儿真的不一样了。

就像这样，轻轻一圈，选定目标急速变身单独图层，再丝滑嵌入不同的背景***，场景变换so easy~

想要调度一下镜头角度，交给AI，同样能一键完成：

还能一键肃清、修正目标：

后期再也不用加班加得手抽筋（doge）。

划！
重！
点！
这还不是实验室里的单一技能demo，而是立时就要开放内测，让创作者们直接可以用起来的一站式AI***创作平台——“寻光”。

便是说，传统上分散在不同制作流程中的剧本创作、分镜图设计、***素材编辑等步骤，现在都可以在AI加持下，在同一个平台上流畅完成。

这便是阿里达摩院在上海天下人工智能大会上带来的最新惊喜。

演示一出，现场的不雅观众都坐不住了。

而达摩院官方，也透露出了AI***领域新成果背后更大的“野心”：

不对标Sora，而是走自己的路，希望更快让AI生产力匹配人类想象力。

“寻梦光影间”

所谓寻光，意指“寻梦光影间”：

即通过人工智能技能，供应全新的***创作模式。

与Sora等今年备受关注的AI***天生模型不同，寻光关注到的，是“Sora之后，***事情流的变革”。

达摩院认为，Sora等AI***天生模型给足了人们对***生产办法彻底变革的想象力，但一方面，AI***内容的可控编辑，包括对繁芜剧情的理解、天生工具的同等性等，仍旧是当前算法所面临的一大寻衅。

另一方面，业界尚没有统一的AI***编辑平台，能让创作者们一站式体验到AI加持的***创作全流程。

举个例子，OpenAI创始成员Andrej Karpathy最近也玩上了AI***，整出了个AI版《傲慢与偏见》。

在这个短片的制作过程中，他用到的工具包括Claude、Ideogram、Luma、ElevenLabs、VEED……而他本人也抱怨说：

诚笃说这个事情流非常混乱，工具与工具之间存在大量的复制粘贴，3个片段的大略小***就花了我大约1个小时的韶光。
这里面存在一个巨大的机会。
谁正在打造100%的AI原生***制作平台？
达摩院打造寻光，定位为PUGC一站式AI***创作平台，目标正是针对以上问题，用AI能力重塑传统***制作的全流程。
详细来说，寻光可以赞助用户创作剧本、分镜图等，支持对天生及上传素材进行丰富的AI编辑，包括人物掌握、场景掌握、运镜掌握、目标新增/肃清/修正等10多种功能。
并且在交互方面，主打“让***编辑像操作PPT一样大略”。
以分镜设计环节为例，上传到寻光的原始***素材，会由算法切分成多个分镜头。
在创作空间里，用户可以方便地查看到每一个分镜头，并用大略的拖拽操为难刁难其进行调度。
在新建的空缺分镜中，除了添加已有素材，寻光平台还支持用户调用多种多模态天生模型，生产新的内容。
而在编辑功能方面，寻光强调的是风雅化的编辑和掌握：在AI加持下，依据用户意图，在语义层面而不是像素层面实现编辑；同时，***里的人体、人脸、前景、背景等任意局部目标，都可以进行风雅化的编辑和修正。
在现场，达摩院视觉技能实验室高等算法专家陈威华着重提到了基于***图层的编辑能力。
以前景图层功能为例，用户通过文本输入，即可天生符合描述的、具有透明背景的***，并且一键就能将其领悟到其他背景***当中。
寻光也支持图层拆解功能，用户在***第一帧选择想要提取的物体，算法就会自动跟踪，把整段***中对应的目标拆解出来，形成独立的带透明背景的***图层。
飞舞的头发也扣得很风雅的那种：
其余，在对***全局元素的编辑方面，风格迁移上，寻光平台供应了20+不同风格。
运镜掌握上，旁边平移、高下平移、推进拉远、旁边环抱等都能支持。
在对***局部元素的编辑方面，除了目标肃清，寻光平台还能实现人脸的精准掌握：
△***取自国风武侠动漫《少年白马醉东风》第三集
轻轻一拉实现运动掌握：
如此看来，寻光可以说集成了市情上最完备的AI编辑功能，把一全体***制作事情流都给AI化了。
比较于在各种工具间跳来跳去，在传统事情流中零散地插入AI能力，属实更加方便、高效了。
重塑***创作事情流
探索更理解物理天下规律、天生时长更长、天生效果更惊艳的多模态的模型，是当今工业界和学术界都密切关注的方向。
但当更强大的AI面世后，人们能否更快节制这种新型生产力，同样是值得关注的话题。
在Karpathy挑起话题之后，就有不少网友表示确实戳中痛点：
从一个工具转移到另一个工具会毁坏事情状态，说实话，这限定了这些工具对效率的提升。
AI***创作须要统一的UI。
陈威华也在WAIC现场谈到：
本日我们正处在AI***天生这场巨大变革之中，“工欲善其事，必先利其器”，我们希望寻光***创作平台便是每一个人手中的利器，是每一个人的专属***事情室，在这个平台上，AI与创作者之间能够更紧密高效地协作。
为此，寻光平台背后的达摩院视觉技能实验室已做了大量技能储备。
该实验室致力于多模态视觉旗子暗记的理解与天生技能研究，当前的重点研究方向包括更加精准的图像/***/3D内容天生，更加可控的图像/***/3D内容编辑，更加高效的天生框架，多模态的理解-天生框架等。
AIGC在全天下范围内引爆热潮，核心在于带来了生产力彻底变革的想象空间。
现在，解放生产力的第一步，已经开始落地实践，你期待吗？
官网地址：https://xunguang.damo-vision.com/
— 完 —
量子位 QbitAI · 号
关注我们，第一韶光获知前沿科技动态签约