2022世界人工智能大年夜会｜看图更准能理解***和做翻译的“诗人2.0”来了_模子_诗人

2024-11-16 06:10:03 智能助手

2022天下人工智能大会科学前沿全体会议期间，上海人工智能实验室发布了更为通用的人工智能模型“诗人2.0”。
全新升级后的“诗人”，不但“看图更准”，还学会了“理解***”和“做翻译”，在四十多个视觉任务取得了天下领先性能。
获悉，以中文为核心的大规模百语翻译开源平台也将在年内推出。

2022世界人工智能大年夜会｜看图更准能理解视频和做翻译的“诗人2.0”来了_模子_诗人智能助手

“实验室正在打造以视觉和自然措辞为核心的通用模型技能体系，包括根本理论方法、数据集、模型集、下贱任务和运用生态等。
”上海人工智能实验室领军科学家乔宇表示，“面向未来，‘诗人’期望实现以一个模型谱系完成上千种任务，体系化办理人工智能发展中的诸多瓶颈问题。
推动人工智能从单任务单模态可用到多任务多模态安全易用，从感知智能到认知智能的跃迁。
”

视觉模型更通用、更低碳、更环保

发展更为通用的AI技能是人工智能的科技前沿和核心焦点问题。
去年11月，上海人工智能实验室发布“诗人”，一个模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。
将通用视觉技能体系命名为“诗人”，意在表示其犹如诗人一样平常的特质，可通过持续学习，举一反三，逐步实现通用视觉领域的交融贯通，终极实现灵巧高效的模型支配。
经由近一年的努力，“诗人2.0”全新升级，可以更加精准地识别图像，在图像标杆任务上性能取得了显著的提升，并在三十多种***任务上取得了领先的性能，还可实现以中文为核心的百种语音翻译。

“诗人2.0”通用图像模型基于动态稀疏卷积网络，可以根据不同的视觉任务自适应地调度卷积的位置以及组合办法，从而灵巧准确适配不同的视觉任务。
相较于“诗人1.0”，“诗人2.0”在图像检测等视觉标杆任务上的性能取得重大提升。
以卷积神经网络的办法重新取得图像领域标杆任务的领先性能，也为图像大模型供应了新的方向。

“诗人2.0”通用***模型探索掩码学习和比拟学习相结合的演习范式，打破***自监督学习的性能瓶颈，构建了首个具有体系化动态感知能力的视比年夜模型，全面覆盖根本***识别、开放***感知、时空语义解析三大核心领域。
在***识别、***时空检测、***时序定位、***检索等三十多种***任务上精度天下领先。

基于“诗人2.0”的通用图像和***模型，可以广泛应对多种视觉任务和多种场景。
在12大类40余种视觉任务中，“诗人2.0”模型支撑取得了领先性能，超越了干系领域的国际有名机构。

在达到精良性能的同时，“诗人2.0”还实现了利用本钱更低、更低碳、更环保的目标。
比较达到谷歌的CoCa和微软的SwinV2-G的相似效果，“诗人”利用的打算量远远小于前两者。

推出以中文为核心的百语翻译模型

目前大部分开源翻译模型在中文和其他语种之间的翻译时缺点率较高。
针对这个痛点，“诗人2.0”积累了大量中文为核心的翻译数据，提出了异步多分枝演习技能，构建了以中文为核心的百语通用翻译模型，一个框架支持161种措辞，推动中文自然措辞处理社区的开放。

M2M和NLLB是公认开源效果领先的多措辞翻译模型。
在Flores数据集上，比拟M2M 120亿参数量模型，“诗人2.0”在多语到中文的均匀翻译性能提升了35.1%；比拟NLLB 500亿参数量模型，“诗人2.0”在多语到中文的均匀翻译性能提升了7.1%。
而相较前两者，“诗人2.0”仅须要10亿的推理参数。
以“诗人”技能为支撑，团队在Waymo自动驾驶等16项国际大赛和评测中取得了冠军，揭橥了20余篇高质量学术论文并开源，稳步构建以视觉和自然措辞为核心的更为通用的人工智能技能体系。

本次大会期间，由中国电子技能标准化研究院、上海人工智能实验室联合发起，多家机构共同编撰的全国信标委人工智能分委会的第一份技能文件《人工智能大规模预演习模型第1部分：通用哀求》（TC28/SC42-001）也即将发布。
该文件是模型开拓者、科研机构、模型利用方、第三方评测机构共同研讨的主要成果，作为我国大模型领域的一份奠基性规范文件，对推动大模型与家当深入领悟、完善生态具有主要意义。