多模态大模型是一种可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构,近年来在浩瀚场景中展现了惊人的能力。

华科大年夜研发出具备出色“看图措辞”能力的人工智能“小猴子”_模子_埃菲尔铁塔 文字写作

团队将Monkey代码在环球最大的代码托管做事平台GitHub上开源。
华中科技大学供图

据先容,Monkey模型在18个数据集上的实验中表现出色,特殊是在图像描述和视觉问答任务方面超越了浩瀚现有的有名模型,如微软的LLaVA、谷歌的PaLM-E、阿里的mPLUG-Owl等。
此外,Monkey在文本密集的问答任务中显示出显著的上风,乃至在某些样本上超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。

Monkey的一个显著特点是出色的“看图说话”能力。
在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。

在一张图片中,Monkey可以精确地将其识别为埃菲尔铁塔,并对其构图和配色方案作出详细描述。
而对付图中左下角的笔墨,只有Monkey和GPT-4V能将其准确地识别为作者名。

Monkey可以精确地将其识别为埃菲尔铁塔,并对其构图和配色方案作出详细描述。
华中科技大学供图

目前,险些所有多模态大模型都须要利用网上爬取的图文数据集,这些数据集只能进行大略的图文描述,无法知足大分辨率图片的需求。
Monkey奥妙利用现有的工具构建了一种多层级的描述天生方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和终极总结。

Monkey能够结合不同工具的特性,来大幅度提升描述的准确性和丰富程度。
“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大浸染。
”白翔说。

他先容,团队从2003年便开始从事图像识别研究,去年又从外洋引进了专攻多模态大模型的青年人才,Monkey的终极方案是大家一起反复谈论、考试测验了10余种方案后才终极确定的。

此外,Monkey的另一亮点是能够处理分辨率高达1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。
这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述乃至推理。

理解到,目前业内能处理的图片最大分辨率为448×448像素,而想要进一步提升处理能力,需投入十分高昂的算力本钱。

如何以更低本钱扩大输入分辨率?该团队成员刘禹良向先容,团队采取了创新性的“裁剪”方法,将原始输入图片分割成多个块,每块尺寸小于448×448像素,并为每个块配备了一个“放大镜”,放到得当的位置就可以“看”清更多细节。
多个“放大镜”同时事情,分别“放大”不同的图片块,就能提取更多局部特色。

编辑 陈静

校正 李立军