一文道尽「人工智能的 2021 年」

解读人工智能的2021:回忆那些激动人心的重大年夜打破_技巧_模子 云服务

本文是 “2021 InfoQ 年度技能盘点与展望” 系列文章之一,由 InfoQ 编辑部制作呈现,重点聚焦 AI 领域在 2021 年的主要进展、动态,希望能帮助你准确把握 2021 年 AI 领域的核心发展脉络,在行业内始终保持足够的技能敏锐度。

“InfoQ 年度技能盘点与展望”是 InfoQ 整年最主要的内容选题之一,将涵盖架构、AI、大数据、大前端、云打算、数据库、中间件、操作系统、开源、编程措辞十大领域,后续将聚合延展成专题、迷你书、直播周、合集页面,在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

特此感谢何苗、侯军、蒋宏飞、刘知远、⻢泽君、吴年光时间、许欣然、曾冠荣、张杰、张凯(按姓名首字母排序)对本文的贡献,他们的真知灼见,是本文能与大家见面的关键。

即将过去的 2021 年,又是跌宕起伏的一年。

疫情仍没有结束的苗头,缺芯造成的供应链中断此起彼伏,与此同时,数字化、智能化转型已是大势所趋。
环球企业和机构在不断学会适应“新常态”,并从中捕捉新的商业机会。

2021年, 人工智能领域依然热潮彭湃。

AphaFold2 成功预测 98% 蛋白质构造,预演习大模型迎来大爆发,自动驾驶迈入商业化试点探索新阶段,元宇宙观点东风劲吹,首个关于 AI 伦理的环球协议通过,商汤科技即将摘得“AI 第一股”... 前沿技能打破令人欣喜,落地运用“润物细无声”般深入各行业,业界也开始正视人工智能的问题和寻衅。

在岁末年初之际,InfoQ 采访了浩瀚行业专家,回顾了 2021 年人工智能大模型、深度学习框架、 NLP、智能语音、自动驾驶、知识图谱等各项 AI 技能的发展情形,并展望了未来一年可能的技能趋势。

2021 年度 AI 技能打破

人工智能预测蛋白质构造

12 月 15 日,Nature 发布了《2021 年十大科学***》;12 月 17 日,Science 紧随其后,公布了《2021 年度十大科学打破》。
Nature 和 Science 都将「人工智能预测蛋白质构造」评为本年度最主要的创造,Science 更是将其列为“2021 年十大科学打破进展”之首。

长期以来,蛋白质构造的预测一贯是生物学领域的研究热点和难点。
传统的蛋白质构造探测方法紧张有三种:X 射线晶体学、核磁共振和冷冻电镜。
但这些方法本钱较高,研究周期漫长,且进展有限。

人工智能为这一困扰生物学界数十年的难题按下了快进键。

今年 7 月,蛋白构造两大 AI 预测算法 —— DeepMind 的 AphaFold2 和华盛顿大学等机构研发的 RoseTTAFold 相继开源。

AphaFold2“解锁”98% 人类蛋白质组

7 月 16 日,DeepMind 在 Nature 揭橥 论文,宣告已利用 Alpha Fold2 预测了 35 万种蛋白质构造,涵盖了 98.5% 的人类蛋白质组,及其他 20 种生物险些完全的蛋白质组。
研究团队还公布了 AlphaFold2 的开源代码和技能细节。

RoseTTAFold 可十分钟内打算出蛋白质构造

同日,华盛顿大学蛋白设计研究所 David Baker 教授课题组及其他互助机构在 Science 上揭橥 论文 ,公布了其开源蛋白质预测工具 RoseTTAFold 的研究结果。
研究团队探索了却合干系思想的网络架构,并通过三轨网络得到了最佳性能。
三轨网络产生的构造预测精度靠近 CASP14 中的 DeepMind 团队的 AlphaFold2,且速率更快、所需打算机处理能力更低。
仅用一台游戏打算机,在短短十分钟内就能可靠地皮算出蛋白质构造。

其他研究进展

8 月,中国研究职员利用 Alpha Fold2 绘制了近 200 种与 DNA 结合的蛋白质构造图。
11 月,德国和美国的研究职员利用 Alpha Fold2 和冷冻电镜绘制了核孔复合物的构造图。
12 月 22 日,深势科技推出了蛋白构造预测工具 Uni-Fold,在海内首次复现谷歌 Alphafold2 全规模演习并开源演习、推理代码。

AI 技能 2021 年景长总结与展望

人工智能迈向“炼大模型”阶段

今年是超大规模预演习模型的爆发之年。

去年,GPT-3 横空出世,这个具有 1750 亿参数规模的预演习模型所表现出来的零样本与小样本学习能力刷新了人们的认知,也引爆了 2021 年 AI 大模型研究的热潮。

谷歌、微软、英伟达、智源人工智能研究院、阿里、百度、浪潮等国内外科技巨子和机构纷纭展开大模型研究和探索。

超大规模预演习模型的“武备竞赛”

2021 年 1 月,Google 推出的 Switch Transformer 模型以高达 1.6 万亿的参数量冲破了 GPT-3 作为最大 AI 模型的统治地位,成为史上首个万亿级措辞模型。

海内研究机构也不甘示弱。
今年 6 月,北京智源人工智能研究院发布了超大规模智能模型“悟道 2.0”,达到 1.75 万亿参数,超过 Switch Transformer 成为环球最大的预演习模型。

值得一提的是,今年国产化大模型研发事情进展飞速,华为、浪潮、阿里、百度等都发布了自研的大模型。

浪潮人工智能研究院首席研究员吴年光时间向 InfoQ 表示,现在业界提高模型参数量有两种技能路线,产生两种不同的模型构造,一种是单体模型,一种是稠浊模型。
如浪潮的源大模型,华为的盘古大模型、百度的文心大模型、英伟达联合微软发布的自然措辞天生模型 MT-NLG 等走的都是单体模型路线;而智源的悟道模型、阿里 M6 等走的是稠浊模型路线。

预演习模型技能新进展

OPPO 小布智能中央、 NLP 算法工程师曾冠荣认为,预演习模型在今年取得的主要技能进展有:

知识表示和学习机理进一步创新打破

随着对预演习模型的深入理解,预演习模型的知识学习和表征的机理逐步明确,人们得以更加顺利地往模型里注入须要其学习的知识,在这些知识的加持下,对繁芜任务的应对能力得到了大幅提升。

比拟学习、自监督和知识增强

以比拟学习为中央,多种增强方法为工具的办法能进一步提升预演习模型的语义理解和表征能力,增强方法的深入让模型自监督成为可能,让比拟学习对样本,尤其是正样本的依赖降落,数据依赖的降落势必让模型对少样本乃至无样本任务的适应性提升,模型能更好地完成这类型的任务,这将让预演习模型落地的本钱再降落一个层次。

降落 AI 规模化落地的门槛

预演习大模型降落了 AI 运用的门槛,办理了 AI 运用的两个难题:数据和行业知识。
它既不须要大量的标注数据,又保障了根本底座。

在预演习模型的业务定制优化和运用方面,曾冠荣认为,从第一个预演习措辞模型 BERT 发布至今,已在多个热门任务下得到运用,逐步从一种“潮流”变成前沿技能的“基本操作”,如预演习模型已成为机器翻译领域的根本关键性技能。
此外,预演习模型也成为大系统中的一部分,发挥着其语义理解的上风。

无论是业界还是科研,对预演习模型的利用办法逐渐灵巧,能从预演习模型中拆解出适宜任务的部分并组装到自己的实际任务模型中。

时至今日,对预演习大模型的性能优化仍未终止,在学界,仍有大量的研究在预演习模型的落地能力上努力,压缩、剪枝、蒸馏的事情仍起到主要浸染。
不止于算法本身,编译、引擎、硬件等方面的优化也在大步迈进。

小结和展望

吴年光时间认为,整体而言,现在大规模预演习模型的研究,包括模型构造的演进和落地仍处在探索阶段,各家的持续探索正在不断扩大对大规模预演习模型的认知边界。

“大规模预演习模型是人工智能的最新技能高地,是对海量数据、高性能打算和学习理论原始创新的全方位磨练”,清华大学教授、智源大模型技能委员会成员刘知远在接管 InfoQ 采访时展望了明年大模型的发展趋势。

刘知远表示,他明年将重点关注两个层面的问题:

一是人工智能技能正呈现“大一统”趋势,如预演习模型在 Prompt Tuning 等技能的支持下可用于很多不同的任务,再如 Transformer 模型框架正在从自然措辞处理扩展到打算机视觉模态,接下来我们大概会看到更多的从框架、模型和任务等方面推进人工智能技能趋向统一的事情 ; 另一个问题是,随着预演习模型规模增大,如何更好更高效地实现任务适配和推理打算,将是让大模型飞入千家万户的主要技能。

国产深度学习框架不再是“技能的跟随者”

过去十年呈现了大量的 AI 算法和运用,这背后都离不开开源深度学习框架供应的支持。

开源深度学习框架是 AI 算法研发和 AI 运用落地的“脚手架”,帮助 AI 研究员和开拓者大幅降落算法研发门槛,提升研发效率。

IDC 的调研显示,中国人工智能领域 90% 以上的产品都利用了开源的框架、库或者其他工具包。

新进展,新趋势

深度学习框架的发展核心是跟随着深度学习领域的发展而提高的。

开源深度学习框架旷视天元 MegEngine 研发卖力人许欣然在接管 InfoQ 采访时,分享了过去这一年他所不雅观察到的深度学习的新进展:

(1)以 ViT、Swin 为代表的 Transformer 类模型开始向 NLP 以外的领域进军,在更多场景中展现威力,让“大”模型的趋势愈演愈烈。

相应的,深度学习框架也在演习大模型方面进展颇多(如 DeepSpeed+ZeRO),多种稠浊并行方案层出不穷。
无论是深度学习框架还是硬件厂商,都在思考 Transformer 是否是会长期固定的打算 pattern。

(2)A100 这类显卡的出身,催生了一股从动态图回到静态图的趋势。
本身对动态图更友好的框架也纷纭考试测验通过编译的办法提升效率,比如 PyTorch 的 LazyTensor、Jax 的 XLA。
很多国产框架也在考试测验通过动静结合的办法提升效率,比如旷视天元 MegEngine 推出的 Tensor Interpreter、MindSpore 的 Python 代码转静态图的方案等。

此外,MLIR 和 TVM 这两个深度学习编译器领域的灯塔都在快速增长,如何靠机器做好编译也正成为各个深度学习框架研发的紧张方向。
同时随着深度学习方法的持续发展,也出身了更多的新兴框架,如图神经网络领域的 DGL。

技能自主之路

近两年,国产深度学习框架陆续开源且发展迅速,逐渐在开源框架市场霸占一席之地。

在技能研发方面,国产框架不再是技能的“跟随者”的角色,研发出了很多领先的创新点,比如 MegEngine 的 DTR 技能、OneFlow 的 SBP 并行方案和 MindSpore 的 AKG 等等。
此外,在功能、代码质量和文档等方面都达到了很高的水准。

在开源生态培植方面,各家也都持续投入,通过开源社区扶植、产学研互助等办法,助力国产开源生态的发展和人才培养。

业界现有的主流深度学习框架多来自国外大厂,目前,海内企业自研的深度学习框架还没有哪一款进阶成为国际主流的学习框架。

许欣然坦言,国产深度学习框架在生态培植上还有很长的路要走,既须要持续投入、不断完善生态培植,也须要找到差异化的技能竞争点,充分结合我国国情和国产硬件,发挥好自身的技能上风和更好的生态洞察力。

研发难点

现阶段,在深度学习框架方面,业界普遍面临的研发难点紧张表示在以下三个方面:

(1)在演习侧,NPU 开始入场,不少厂商已经做出自己的演习芯片,如何高效对接演习 NPU 仍待办理;

(2)学术研究发展迅速,框架技能须要持续跟进,这为框架研发带来了一定寻衅。
接下来一段韶光会持续一段大 Transformer 的趋势,那么,下一个趋势是什么?

(3)算力提升速率更多地开始依赖 DSA 硬件,只是纯挚的手写 kernel 已难以支撑,框架须要更多的编译技能、domain knowledge 才能不断提升演习效率。
随着 NPU、GPU 等芯片的快速迭代,包括 MLIR、XLA、TVM 在内的编译技能将受到更多关注。

将更好地支持大模型演习

随着大模型的持续火热,预期深度学习框架将在并行策略、重打算等能力上不断提升,以更好地支持大模型的演习。

同时,目前演习大模型仍需花费大量资源,如何依赖深度学习框架的力量节省打算资源,乃至在更小规模上完成任务,将是一个值得探索的技能方向。

智能语音这一年:技能打破不断,工业落地加速

语⾳领域的⼤规模预演习模型层出不穷

字节跳动 AILAB 语⾳技能总监⻢泽君向 InfoQ 表示,2021 年度,智能语音技能的演进呈现出三个层面的趋势:

(1)根本建模技能在冲破领域边界加速领悟,如 Transformer 系列模型在⾃然语⾔、视觉和语⾳领域都展现出⼀致性的上风,颇有“⼀统江湖”的意思。

(2) 超⼤规模⾃监督学习技能(self-supervised learning)在上述多个领域展现出很强的通⽤学习能⼒,即在海量⽆标签数据上演习⼤规模通⽤预演习模型,然后⽤少量有标签数据做风雅调度就能取得⾮常好的效果。

过去⼀年里,基于这种两段演习模式的超⼤模型不断刷新各项学术算法竞赛记录,在⼯业界也成为⼀种模型演习和调优范式。

最近⼀年,Facebook、亚⻢逊、⾕歌和微软等公司的研究学者陆续提出语⾳领域的⼤规模预演习模型, 如 Wav2vec、 HuBERT、 DecoAR、 BigSSL、WavLM 等。

(3)除根本技能外,在不同应⽤场合场景下,多个领域模态的技能也在快速相互领悟,形成视觉、语⾳和语义结合的多模态综合系统,如虚拟数字⼈。

工业界落地加速

整体来说,智能语⾳技能在⼯业界的落地不断加速,来⾃业务和技能两个⽅向的合⼒共同作⽤牵引和驱动应⽤落地。

从应⽤场景的牵引看,⼀⽅⾯如短中⻓***业务,在环球仍保持着较⾼的增⻓速率,***内容创作者和内容消费者生动度很⾼;另⼀⽅⾯,疫情令居家办公和远程协作的需求增⻓,智能语⾳技能能在***会议中供应通信增强和语⾳识别等关键能⼒,为参会者供应更佳的会议体验;以智能汽⻋和虚拟现实 VR/AR 为代表的新场景不断涌现,须要更⽅便、更低延迟、更沉浸式的语⾳交互体验。

从核⼼技能的驱动看,根本模型改进和⾃监督技能不断提升着模型性能上限,同时多模态技能领悟使得技能⽅案的能⼒越来越强,可⽀持更繁芜的场景并带来更好的体验。

商业化难点紧张在于商业模式选择

马泽君认为,现阶段,智能语音商业化的难点紧张是商业模式探索和路线选择的问题,详细包括如何更好地满⾜需求,掌握本钱以及担保交付质量。

⼀⽅⾯,AI 商业模式探索须要始终环绕需求展开,提升模型效果和在真实场景中办理用户或客户的问题不能等同。
办理实际问题须要 AI 研发⼈员深⼊业务场景,理解需求和条件限定,找到合理的产品技能⽅案,并不断思考和抽象功能和技能,沉淀通⽤的技能办理⽅案,探索验证可规模化的标准产品,降落定制周期和代价。

另⼀⽅⾯,AI 技能研发本钱⾮常⾼,如何通过优化算法低对领域数据依赖,培植⾃动化平台降落⼈⼒花费和提升研发流程效率对本钱掌握⾮常关键。

末了还要重视交付质量和售后做事。
只有同时做好上述三个环节,才能完成从需求到交付到做事的全体链路,从而奠定规模商业化的根本。

端到端和预演习等技能仍旧值得关注

端到端序列建模技能

(1)准确率和推理速率更上⼀层楼的端到端技能值得期待,个中对⻬机制(alignmentmechanism)是端到端序列建模的关键。
字节跳动 AILAB 正在探索的连续整合发放 CIF 模型(Continuous Integrate-and-Fire)是一种创新的序列端到端建模对齐机制,具有软对齐、打算代价低和随意马虎扩展的特性。

(2)在端侧设备上的端到端语⾳识别和合成技能落地值得关注,特殊是轻量级、低功耗、⾼准确度和定制灵巧的端到端语⾳识别和合成技能。

(3)端到端语⾳识别技能⽅向的热词定制和领域⾃适应技能⾮常可能有重⼤进展。

⽆监督预演习技能

(1)超⼤数据规模和模型 size 的语⾳⽆监督预演习技能值得关注,语⾳⽆监督预演习的 BERT 已经涌现 (Wav2vec2.0/Hubert), 语⾳⽆监督预演习的 GPT-3 很可能在 2022 年到来。

(2)多模态语⾳⽆监督预演习技能也⾮常吸引⼈,该技能可能会极⼤地提升预演习模型的表征能⼒,从⽽带来⽆监督预演习技能更⼤范围的落地应⽤。

(3)无监督预演习技能在语⾳合成、⾳乐分类、⾳乐识别领域的应⽤同样值得关注,借助⽆监督预演习的声学⾳频表征,可以有效提升下贱任务的性能。

语⾳对抗攻击与防御技能。

(1)语⾳领域的对抗攻击,从攻击⼿段上来看,将从当前的⽩盒攻击,进⼀步进化成⿊盒攻击;从攻击内容来看,将从当前流⾏的 untarget 攻击进化成 target 攻击。

群雄逐鹿,谁能赢得自动驾驶之战?

2021 年,自动驾驶领域格外热闹。

造车热

今年,互联网大厂、新造车势力和传统企业纷纭进场布局自动驾驶,可以说能了局的巨子们基本上都了局造车了,自动驾驶“沙场”群雄逐鹿,不知未来谁执牛耳?

在成本市场上,自动驾驶也备受追捧。
据零壹智库剖析,继 2016-2018 年热潮之后,2021 年自动驾驶领域迎来第二次投资热潮。
今年 11 月,Momenta 完成超 10 亿美元 C 轮系列融资,创下本年度自动驾驶领域最大规模融资记录。

商业化前夜

Robotaxi 是自动驾驶最有代价的商业模式,现阶段,很多自动驾驶技能公司都在做 Robotaxi 的考试测验。
今年,很多自动驾驶车辆从封闭路测园地走向真实道路。
百度、小马智行、文远知行、等企业已实现面向"大众年夜众的示范运营,开始探索商业化。
11 月,海内首个自动驾驶出行做事商业化试点在北京正式启动,百度和小马智行成为首批获许开展商业化试点的企业。
业内人士认为,这标志着海内自动驾驶领域从测试示范迈入商业化试点探索新阶段。

今年,自动驾驶卡车赛道也格外火热,量产和商业化均提速,头部玩家走向上市。
近日,毫末智行董事长张凯在接管 InfoQ 等媒体采访时谈到了自动驾驶卡车的发展,他表示,相对乘用车赞助自动驾驶运行场景的繁芜性,RoboTruck 具有一些上风,例如永劫光运行在较畅通的高速公路上,运行场景相对大略。
现阶段,RoboTruck 走得是类似于乘用车般从赞助驾驶到无人驾驶渐进式的发展路线。
从发展前景看,Robotruck 具备商业化闭环的可行性,但自动驾驶系统的量产将会是一个坎。

毫末智行 COO 侯军认为,2021 年是自动驾驶的爆发之年。
一方面,得益于技能的持续进步、市场需求、政策加持、成本看好等各方面成分,高等别自动驾驶在落地探索方面,已有了初步的成果;另一方面,智能驾驶商业化落地也在快速渗透,开始走向量产时期。

2022,这些技能将是下半场竞争胜负的关键

根据张凯的预判,“2022 年将是自动驾驶行业发展最为关键的一年。
乘用车赞助驾驶领域的竞争将会正式进入下半场,而下半场竞争的场景将会是城市开放场景。
其他场景的自动驾驶也将正式进入商业化元年”。

张凯认为,2022 年,多项自动驾驶技能值得关注。

(1)数据智能将成为自动驾驶量产决胜的关键。
数据智能体系是自动驾驶商业化闭环的关键所在,搭建高效、低本钱的数据智能体系有助于推动自动驾驶系统不断迭代前行。

(2)Transformer 与 CNN 技能深度领悟,将会成为自动驾驶算法整合的粘合剂。
Transformer 技能帮助自动驾驶感知系统理解环境语义更深刻,与 CNN 技能深度领悟能办理 AI 大模型量产支配的难题,这是自动驾驶行业下半场竞争的关键技能。

(3)大算力打算平台将在 2022 年正式量产落地,Transformer 技能与 ONESTAGE CNN 技能都须要大算力打算平台做支撑。

(4)随着自动驾驶系统的量产和规模化,激光雷达与机器视觉组成的 AI 感知技能,将与大算力打算平台深度领悟,这将大幅提升自动驾驶感知、认知模块的运行效率。

NLP,黄金时期持续?

这几年,NLP 处于快速发展阶段。
去年,多位 NLP 专家评判,NLP 迎来了大爆发的黄金时期。
那么今年,NLP 的发展情形如何?

基于提示的微调技能迅速盛行

作业帮产研中央蒋宏飞博士见告 InfoQ,今年基于提示的微调 (prompt-based tuning)的技能迅速盛行起来,这是一种人类知识和大模型较高效的结合模式。
该技能是今年较值得关注的新进展。

“今年 NLP 在根本模型方面没有大的打破。
预演习模型方面,今年呈现了很多很大的模型,但整体上同质化也较严重,对付工业界实践效果来讲,每每按照‘奥卡姆剃刀’原则,方向于利用最适当的如 Bert 每每就够了”蒋宏飞表示。

现阶段,NLP 技能在发展过程中还存在不少技能寻衅,个中之一便是很难获取到大量高质量的标注数据。
深度学习依赖大规模标注数据,对付语音识别、图像处理等感知类任务,标注数据相对随意马虎,但 NLP 每每是认识类任务,人的理解都有主不雅观性,且任务和领域浩瀚,导致大规模语料标注的韶光本钱和人力本钱都很大。

与 CV、语音识别比较,NLP 项目在业务中落地每每较慢

NLP 落地项目每每和业务强干系。
不像图像识别、语音识别,通用能力在详细业务也有大量落地场景,业务和算法协作边界和指标相对好确定。
而 NLP 项目在业务中落地每每会比较慢,须要高下游不断深度磨合对齐。

NLP 办理的是最难的认知智能,而人类措辞的歧义性、繁芜性、动态性令其寻衅重重。
但 NLP 商业化落地必须面对这些实质的难题,以是不太可能有通用性的“一招吃遍天”的技能方案。

“只管现在的预演习模型一贯在往这个方向努力,但我认为最少目前这种 Transformer 式的,或者更通用地说,DNN 这种蜂巢智能式的技能范式不太行。
以是,大家能看到也有不少研究学者在知识图谱类的各种其他范式上在做努力”蒋宏飞说。

通用性的模型既然走不通,那垂类单一详细场景任务为什么也不能快速搭建?这个问题又涉及到数据的问题。
数据标准的对齐、数据标注同等且高效、数据覆盖度和均衡度、长尾数据的处理、数据动态漂移等都是 NLP 从业者每天面对的麻烦事。
而干系的方法论和根本工具还很不系统、不齐备,这是未来想达到快速商业化目的前必须打好的根本。

明年,NLP 将在哪些场景实现规模化落地?

2022 年,NLP 的大规模化运用可能会涌如今以下行业涌现打破:

教诲智能化场景化高标准机器赞助翻译,如专业领域文档翻译、会议实时翻译等。
做事运营智能化:培训、发卖、营销、做事等场景的智能化。
外文学习 / 写作智能赞助,参考 Grammarly 和 Duolingo 的快速发展。
医疗智能化。
文本广泛存在于电子病历、临床试验报告、医学产品解释书、医学文献中。
剖析、挖掘和利用这些文本,有大量且能直策应用的场景,可能会有打破式发展。
代码智能剖析。
代码 bug 识别、代码智能优化等。

2022 年,NLP 值得关注的技能点

基于提示的微调 (prompt-based tuning) 的技能。
具有逻辑推理的文本天生技能、具有良好掌握性以及同等性的文本天生技能。
文本天生要在严明场景用起来就必须知足这些,否则只能运用在娱乐场景。
多模态技能。
如 NLP+CV、 NLP + Image、 NLP+ Speech 等。
主动学习、数据增强等。
NLP 大规模快速落地时的很多痛点须要这些技能来缓解。
代码智能。
代码问题识别、代码翻译、自动代码优化、代码事情量评估 (如 Merico 的方案)。

元宇宙观点大火,打算机视觉是基石技能之一

回顾过去的一年,OPPO AI 技能产品化专家(语音语义和打算机视觉以及多模态领悟方向)何苗总结了打算机视觉在工业界和学术界的进展。

具身智能,从被动式 AI 转向主动式人工智能

具身智能(embodied AI),强调智能体(agent)要与真实天下进行交互,并通过多模态的交互 — 不仅仅是让 AI 学习提取视觉上的高维特色,被“输入”的认知天下,而是通过“眼耳鼻舌身意”六根来主动获取物理天下的真实反馈,通过反馈进一步让智能体学习并使其更“智能”、乃至“进化”。

今年 2 月,李飞飞提出了一套新的打算框架—— DERL(deep evolution reinforcement learning)深度进化强化学习。
她提到了生物进化论与智能体进化的关系,并借鉴了进化论的理论运用于假设的智能体的进化学习中。

进入元宇宙,须要智能感知和交互这张门票

今年,元宇宙观点大火,各家纷纭入局。

Facebook 极为推崇元宇宙,为了表示投入元宇宙的决心,今年,Facebook 改名为 meta,并宣告 “all in 元宇宙”。

扎克伯格提出云宇宙须要具备八要素,个中之一是 Presence 开拓平台 / 套件。
Presence 是 meta 为 Oculus VR 头显开拓者供应的元宇宙根本开拓套件,供应的即为基于打算机视觉和智能语音技能的工具集,分别是 insight sdk、interaction sdk 和 voice sdk。

进入元宇宙须要智能感知与交互技能这张门票,而这张门票里的视觉和语音技能是最主要的基石。

趋势一:面向内容天生的 AIGC

元宇宙天下须要孪生大量现实天下的物体或是对付现实天下的人物进行重修,而这些海量的重修一定不能按照传统游戏天下中的方法,由 CG 工程师一个个手工制作,这样效率远远无法知足实际场景的需求。
因此面向内容天生的 AIGC(算法层面)是必要的。
干系技能方向包括:图像超分、domain 迁移、外推、类似 CLIP(比拟式措辞图像预演习模型,可以从自然措辞监督中有效学习视觉模型)的隐式神经表示 — 通过笔墨描述来天生图像等多模态的(CV+NLP)等干系技能。

趋势二:SCV 合成

虚拟现实引擎有专门的天生合成数据的组件,这些合成数据不仅都雅,而且有助于演习更好的算法。

天生 / 合成的数据不仅是元宇宙的必备要素,也是演习模型的主要质料。
如果有得当的工具来构建数据集,就可省去繁琐的给数据手工打标的过程,更好地对打算机视觉算法进行开拓和演习。

有名数据剖析公司 Gartner 认为在未来 3 年中,合成数据将比真实数据更占上风。
在合成打算机视觉(SCV)中,我们利用虚拟现实引擎演习打算机视觉模型,并将演习好的模型支配到现实天下。

知识图谱商业化落地,制约成分紧张在于标准化

主要技能进展

知识图谱技能在过去这一年取得的主要技能进展有:

知识抽取方面,多模态信息抽取在同时处理文本和***方面取得了进展;知识表示方面,自把稳力机制的知识表示方法越来越走向实用;知识运用方面,很多行业开始构建行业知识库,用于各种下贱任务。

明略科技资深科学家张杰在接管 InfoQ 采访时指出,现阶段,在知识图谱方面,业界普遍面临的研发难点紧张表示在两个方面:算法方面,针对非构造化数据的信息抽取和实体对齐的准确度难以保障直接商用,需人工校验;工程方面,行业图谱构建本钱高,须要大量的人工标注,其余构建进度也不是一挥而就,须要业务专家不断运维。

张杰预测,2022 年,领域预演习措辞模型和 Prompt 在知识图谱中的运用,有望使得信息抽取环节得到进一步提升。
针对技能性知识的抽取技能和多模态抽取技能,商用前景广阔。

运用落地进展

2021 年,知识图谱技能的运用落地,在 ToC 场景中仍紧张用于搜索、推举的提升,在 ToB 场景中集中在可视化上。

张杰认为,现阶段,制约知识图谱商业化落地的紧张成分在于标准化,行业图谱的 schema 很难在企业内部大范围内达成认知的同等性,影响了后续的标注、抽取、运用。

2022 年,知识图谱技能的大规模化运用可能会在制造业涌现打破,制造业的知识密度高、重视标准化,头部企业重视数字化培植,积累了大量原始数据。

2022 年,值得关注的主要技能趋势

人工智能工程化

近两年,人工智能工程化(AI Engineering)格外受关注。
在 Gartner 发布的 2021 年和 2022 年主要计策技能趋势中,人工智能工程化都被列入个中。
人工智能工程化是一种实现人工智能模型操作化的综合方法。

不久前,Gartner 高等研究总监高挺曾在接管 InfoQ 采访时表示,AI 工程化实质上是 AI 在企业中大规模、全流程的落地过程,只管目前大家现在对 AI 期待很高,但实际上 AI 目前的运用仍旧是被低估的。
由于,很多 AI 项目的代价只能表示在一些“点对点”的一次性的方案中。
将 AI 大规模落地的工程化方法(包含 DataOps、ModelOps 和 DevOps)总和起来,便是“AI 的工程化”的一整套体系。

人工智能工程化对企业有很多好处,企业在进行人工智能落地的时候,落地效率、落地广泛度会更高。

可以预见,人工智能工程化将会是未来 2-3 年须要持续关注的方向,人工智能工程化该当关注三大核心要点:数据运维、模型运维、开拓运维。

Gartner 预测,到 2025 年,10% 建立人工智能工程化最佳实践的企业从其人工智能事情中产生的代价将至少比 90% 未建立该实践的企业赶过三倍。

天生式 AI 渐成趋势

天生式人工智能(Generative Artificial Intelligence)也被 Gartner 评为 2022 年主要计策技能趋势之一。

该机器学习方法从其数据中学习内容或工具,并利用数据天生全新、完备原创的实际工件。
人们可以用 AI 来创造出一些新事物,如内容创作、创建软件代码、赞助药物研发等。

近日,机器学习大牛吴恩达发文回顾了 AI 在 2021 年的四个主要进展,个中之一便是,AI 天生音频内容呈现出主流化方向。
现在音乐家和电影制作人们,已经习气于利用 AI 支持型音频制作工具。

在海内的优酷、爱奇艺等***平台,AI 也已经广泛用于音、***的内容生产和创作中,如 AI 赞助***制作、智能字幕天生、智能翻译、殊效天生等。

Gartner 认为,未来一段韶光内,AI 会逐渐从一个做判断的机器变成一个做创造的机器。
估量到 2025 年,天生式人工智能将占所有天生数据的 10%,而目前这一比例还不到 1%。

不过该技能还存在一定的争议,如会被滥用于诱骗、敲诈、政治造谣、假造身份等,存在道德和法律风险。

元宇宙,狂热的新风口

2021 年,可能没什么技能名词比“元宇宙”热度更高了。
环球很多公司都在讲元宇宙的观点,认为元宇宙是指向互联网的“终极形态”。
如今,移动互联网的红利已经见顶,不知道互联网的尽头是否会是元宇宙?

所谓元宇宙,是一个虚拟时空间的凑集, 由一系列的增强现实(AR), 虚拟现实(VR) 和互联网(Internet)所组成。
元宇宙的实现,仰赖一系列前沿技能作支撑,包括人工智能、VR/VR、5G、云打算、大数据、区块链等根本举动步伐。

元宇宙中可以重点关注的细分赛道有 VR/AR 、游戏、社交、Metahuman 等。
文娱基金易凯成本在其元宇宙报告中也表示,长期看好基于上述形态的底层技能公司。
易凯成本预测,在未来十年,元宇宙观点将依旧集中于社交、游戏、内容等娱乐领域,到 2030 年会渗透到提升生产生活效率的领域。

写在末了

2021年,人工智能领域呈现了不少激动民气的重大打破,人工智能也正在赋能、改变乃至颠覆许多行业。
当然也仍有很多难点须要投入更多韶光占领。

近日,李彦宏对 AI 的未来揭橥判断:“人机共生”时期,中国将迎来 AI 黄金十年。
而未来十年,AI 技能运用门槛将显著降落,为各行各业的智能化转型供应技能“大底座”。

人工智能发展已渐入深水区,期待明年以及之后的 10 年,人工智能能够在技能和落地上取得更多进展,为下一个“黄金十年”而努力。

采访高朋先容(按姓名首字母排序):

何苗,OPPO AI 技能产品化专家

侯军,毫末智行 COO

蒋宏飞,作业帮产研中央

刘知远,清华大学教授、智源大模型技能委员会成员

马泽君,字节跳动 AILAB 语⾳技能总监

吴年光时间,浪潮人工智能研究院首席研究员

许欣然,旷视天元 MegEngine 研发卖力人

曾冠荣,OPPO 小布智能中央、 NLP 算法工程师

张杰,明略科技资深科学家

张凯,毫末智行董事长