苹果推出开源AI大年夜模型MGIE能根据自然措辞指令进行多种图像编辑_模子_图像
图丨把小屋变成豪宅(来源:MGIE)
据悉,该模型由苹果和美国加利福尼亚大学圣芭芭拉分校的研究团队互助完成。干系论文以《通过多模态大措辞模型辅导基于指令的图像编辑》(Guiding Instruction-based Image Editing via Multimodal Large Language Models)为题在 arXiv 上揭橥 [1]。
图丨干系论文(来源:arXiv)
作者包括加利福尼亚大学圣芭芭拉分校研究助理 Tsu-Jui Fu、博士后 Wenze Hu和William Yang Wang 教授,以及苹果机器学习研究员 Xianzhi Du、Yinfei Yang 和 Zhe Gan。
如上所说,MGIE 能够对图像进行全方位编辑,包括照片全局优化、本地编辑、Photoshop 风格修正和依托于指令的编辑等功能。
详细来说:
其一,能够从根本长进步目标图像的质量(清晰度、亮度等),并且可以加入绘画、卡通等艺术效果。
其二,既能够对目标图像中的目标区域或工具(衣饰、人脸、眼睛等)进行修正,又能够改变这些区域或工具的性子,比如颜色、样式、大小等。
其三,能够实现包括剪裁、旋转等在内的各种常见 Photoshop 风格的编辑,并且运用变动背景、添加或删除工具,以及稠浊工具等更高等的编辑。
其四,能够基于 MLLM 天生简明易懂的指令,以有效辅导模型进行编辑,从而全面提高用户体验。
对付用户而言,由于该模型的设计非常易用、灵巧定制,因此用户只须要供应自然措辞指令,就能够实现对图像的编辑。
在此根本上,用户也可以向该模型供应反馈,以更好地完善编辑。此外,该模型还能够与须要图像编辑功能的其他运用程序或平台集成。
那么,详细到实际场景,用户又是如何利用 MGIE 的呢?
面对下图中的左图所显示的披萨,用户可以对 MGIE 输入“让它看起来更康健”的指令,后者便会利用知识推理,给披萨添加西红柿、喷鼻香草等蔬菜配料。
(来源:arXiv)
而面对下图中的左图所显示的多余的女性人物主体,用户可以通过 Photoshop 风格的修正,哀求该模型将人物从照片背景中移除,并将图像焦点转移到男性人物的面部表情上。
(来源:arXiv)
在节制利用 MGIE 的方法之后,我们不可避免地会好奇该模型背后的运作逻辑。
据理解,它紧张基于 MLLM 的理念,后者作为性能强大的人工智能模型,在跨模态理解和视觉感知相应天生方面表现精良,但尚未广泛地在图像编辑任务中得到运用。
MGIE 则通过以下两种办法,成功地将 MLLM 集成到图像编辑的过程中。
第一步,利用 MLLM 从用户输入的指令中总结出尽可能大略的解释,以更好地辅导接下来的图像编辑。比如,如果用户的给定输入是“让草地更绿”,那么,接下来该模型就会天生“将草地区域的饱和度增加 20%”的指令。
第二步,利用 MLLM 提高模型对图像的想象力,这有利于触达编辑的根本,以便完成对目标图像操作的辅导。
总的来说,该模型采取了一种全新的端到真个演习方案,可以实现对指令推导、视觉想象和图像编辑模块的联合优化。
据悉,目前 MGIE 已经在 GitHub 上线,相应的数据代码和预演习模型均已实现开源。不仅如此,还在机器学习项目共享与互助平台 Hugging Face Spaces 上揭橥了一个演示,方便用户在线试用。
综上可以看出,MGIE 不但是一项根本研究成果,更是在各种图像场景下都能适用的实用工具。
也便是说,它不仅可以帮助用户基于个人或专业目的进行图像创建、修正和优化,还能让用户通过图像表达自己的想法和情绪,进而引发他们的创造力。
正如该论文中提到的那样,“MGIE 不是大略但模糊的辅导,而是得出明确的视觉感知意图,并天生合理的图像编辑。我们从各个编辑方面出发进行了广泛的研究,并证明 MGIE 能够在保持竞争效率的同时有效提高性能。我们还相信,由 MLLM 勾引的框架,可以为未来的视觉和措辞研究做出贡献”。
基于此,可以预见的是,这种多模态的人工智能系统,在不远的未来有望成为人们不可或缺的创意伙伴。
参考资料:
1.T., Fu, W., Hu, X., Du. et al. Guiding Instruction-based Image Editing via Multimodal Large Language Models.arXiv:2309.17102v2(2024).https://arxiv.org/abs/2309.17102
https://venturebeat.com/ai/apple-releases-mgie-a-revolutionary-ai-model-for-instruction-based-image-editing/
https://www.macrumors.com/2024/02/07/apple-ai-model-edits-images-natural-language/
https://www.theverge.com/2024/2/7/24065125/apple-generative-ai-image-editing-mgie-open-source-model
https://github.com/apple/ml-mgie
排版:刘雅坤
本文系作者个人观点,不代表本站立场,转载请注明出处!