多模态、万亿参数、生成语音吴恩达回忆人工智能2021_模子_人工智能

2024-12-13 02:52:37 计算机

作者 | ZeR0

多模态、万亿参数、生成语音吴恩达回忆人工智能2021_模子_人工智能计算机

编辑 | 漠影

智东西12月31日宣布，近日，人工智能学术大牛吴恩达（Andrew Ng）在其主编的人工智能周讯《The Batch》上揭橥文章，回顾2021年环球人工智能五大进展，并展望2022年后的人工智能技能发展前景。

这五大进展分别是：多模态AI起飞、万亿参数、无声之声、通用架构、政府制订法规。

一、多模态AI起飞

虽然GPT-3和EfficientNet平分离针对文本和图像的模型是深度学习一些最引人瞩目的成功的缘故原由，但找到文本和图像之间关系的方法取得了令人印象深刻的进步。

发生的事：OpenAI实现图像和文本匹配的CLIP和根据输入文本天生对应图像的Dall·E开启了多模式学习的主要一年；DeepMind的Perceiver IO对文本、图像、***和点云进行分类；斯坦福大学的ConVIRT在医疗X光影像中添加了文本标签。

驱动故事：虽然最新的多模态系统大多是实验性的，但也有一些现实天下的运用进展。

开源社区将CLIP与天生对抗网络相结合，打造了引人瞩目的数字艺术作品。

艺术家Martin O’Leary利用Samuel Coleridge的史诗《忽必烈汗（Kubla Khan）》作为输入，天生充满迷幻色彩的“Sinuous Rills”。

Facebook表示其多模式仇恨辞吐检测器标记并删除了社交网络中97%的辱骂及有害内容。
该系统能根据文本、图像和***在内的10种数据类型，将模因和其他图像文本配对归类为良性或有害。

谷歌表示在其搜索引擎中添加多模态（及多措辞）功能。
其多任务统一模型能返回文本、音频、图像和***链接，以相应75种措辞中任意一种的查询。

***背后：今年的多模态发展之势建立在数十年的研究根本上。
早在1989年，约翰霍普金斯大学和加州大学圣地亚哥分校的研究职员就开拓了一个根据说话者的音频和视觉数据对元音进行分类的系统。
在接下来的20年间，各种研究小组考试测验了数字***库索引、基于视听数据对人类感情进行分类等多模式运用。

事物发展：图像和文本是如此繁芜，以至于在过去，研究职员只能专注于个中之一。
通过这样做，他们开拓了非常不同的技能。
然而在过去十年里，打算机视觉和自然措辞处理已经在神经网络得到有效领悟，这为合并这两种模式的统一模型打开了大门，集成音频模型亦是如此。

二、万亿参数

模型从“大”迈向“巨大”。

发生的事：谷歌Switch Transformer开启了2021年，这是首个超过1万亿参数的模型，参数规模高达1.6万亿。
随后北京智源人工智能研究院推出更大的、拥有1.75万亿参数规模的大模型悟道2.0。

驱动故事：纯挚增加模型参数没有什么神奇的，但随着处理能力和数据源的增长，深度学习“越大越好”的趋势已成为一项原则。

资金雄厚的人工智能公司正在以狂热的速率堆积参数，既为提高性能，也为秀肌肉，特殊是在措辞模型中，互联网为无监督和半监督的预演习供应了大量无标签的数据。

自2018年以来，参数竞赛从BERT（1.1亿）、GPT-2（15亿）、MegatronLM（83亿）、Turing-NLG（170亿）、GPT-3（1750亿）一起增长至今。

很好，但是：构建越来越大的模型的努力带来了寻衅。
巨模型开拓职员必须战胜四个巨大障碍：

（1）数据：大模型须要大量数据，但网络和数字图书馆等大型来源可能缺少高质量的数据。
例如，研究职员常用的BookCorpus是一本由11000本电子书组成的数据集，用于演习30多种大型措辞模型，它可能会传播对某些宗教的偏见。
人工智能社区越来越意识到数据质量至关主要，但在网络大规模高质量数据集的有效方法上尚未达成共识。

（2）速率：本日的硬件很难处理巨大的模型，当位反复进出内存时，这些模型可能会陷入困境。
为了减少延迟，Switch Transformer背后的谷歌团队开拓了一种方法，让每个token处理模型层的选定子集。
他们的最佳模型比参数量只有1/30的模型快了约66%。
同时，微软开拓了DeepSpeed库，这个库并行处理数据、各层和层组，并通过在CPU和GPU之间划分任务来减少冗余处理。

（3）能耗：演习如此弘大的网络会花费大量电能。
2019年的一项研究创造，在8个英伟达P100 GPU上演习2亿参数的Transformer模型所造成的碳排放，险些和一辆普通汽车五年驾驶总排放量一样多。
有望加速人工智能的新一代芯片，如Cerebras的WSE-2和谷歌的最新TPU，可能有助于减少排放，同时风能、太阳能和其他更清洁的能源会增加。

（4）速率：这些大模型太大了，很难在消费者或边缘设备上运行，大规模支配它们须要通过互联网访问（较慢）或精简版实现（功能较弱）。

发展现状：自然措辞模型排行榜仍由参数高达数千亿的模型主导，其部分缘故原由是处理万亿多个参数难度很大。
毫无疑问，他们的万亿级继任者将在适当的时候取代他们。
这种趋势看不到尽头：有传言称OpenAI的GPT-3继任者将包含100万亿个参数。

三、无声之声

音乐家和电影制片人采取人工智能作为音频制作工具箱的标准部分。

发生的事：专业媒系统编制造商利用神经网络，天生新声音并修正旧声音。
这令配音演员感到危急。

驱动故事：天生模型可以从现有录音中学习，创建令人信服的复制品。
一些制作人利用该技能天生原始声音或复制现有声音。

例如，美国初创公司Modulate利用天生对抗网络实时合成新声音。
它使游戏玩家和语音谈天者能够构建虚拟角色中；跨性别者利用它来调度他们更靠近性别身份的声音。

Sonantic是一家专门从事合成声音的初创公司，为2015年失落声的演员Val Kilmer创造了一种新的声音。
该公司根据这位演员作品中的音频演习了模型。

电影制片人摩根·内维尔聘请了一家软件公司，为他的记录片《Roadrunner: A Film About Anthony Bourdain》重现已故巡回演出主持人Anthony Bourdain的声音。
此举引起了Bourdain的遗孀的愤怒，她说她没有给予容许。

挺好，但是：Bourdain的遗孀并不是唯一一个被人工智能模拟已故者的能力所困扰的人。
配音演员对这项技能威胁到他们的生存表示担忧。
2015年电子游戏《巫师3：狂野佃猎》的粉丝对同人版本重现原配音演员的声音感到不安。

***背后：最近将天生音频纳入主流，是在早期研究成果的延续。

OpenAI的Jukebox在一个包含120万首歌曲的数据库上进行了演习，它利用自动编码器、Transformer和解码器流水线，以从Elvis到Eminem的风格制作完备实现的录音（歌词由公司的工程师共同编写）。

2019年，一位匿名人工智能开拓职员设计了一种技能，许可用户在短短15秒内从文本行中复制动画和电子游戏角色的声音。

现状：天生音频及***的模型使媒系统编制作人不仅能够增强档案录音，还能从头开始创建新的、类似于声音的录音。
但道德和法律问题正在增加。
当人工智能取代配音演员时，他们该当如何得到补偿？谁有权将去世者的克隆声音商业化？全新的人工智能天生的专辑有市场吗？它该当存在吗？

四、一个架构做所有事情

Transformer架构正快速扩展其覆盖领域。

发生的事：Transformer最初是为自然措辞处理而开拓的，现在正在成为深度学习的利器。
2021年，他们被用来创造新药、识别措辞和绘画等。

驱动故事：事实证明，Transformer已经善于视觉任务、预测地震以及蛋白质分类和天生。
过去一年里，研究职员将他们推向了广阔的新领域。

TransGAN是一个天生对抗网络，包含Transformer，以确保每个天生的像素与之前天生的像素同等。
它在衡量天生图像与演习数据的相似性方面取得了前辈成果。

Facebook的TimeSformer利用该架构来识别***剪辑中的操作。
它阐明***帧的顺序不是文本中常日的单词序列。
它的性能优于卷积神经网络，在更短的韶光内剖析和更少的功率下剖析较长的片段。

Facebook、谷歌和加州大学伯克利分校的研究职员在文本上演习了GPT-2，然后冻结了其自把稳和前馈层。
他们能够针对广泛的领域对其进行微调，包括数学、逻辑问题和打算机视觉。

DeepMind发布了AlphaFold 2的开源版本，该版本利用Transformer根据蛋白质的氨基酸序列预测蛋白质的3D形状。
该模型引发了医学界在推动药物创造和揭示生物洞察力方面的潜力。

***背后：Transformer于2017岁首年月次亮相，并迅速彻底改变了措辞建模思路。
它的自把稳机制能跟踪序列中每个元素与所有其他元素的关系，不仅适宜剖析单词序列，还适宜剖析像素、***帧、氨基酸、地震波等序列。

基于Transformer的大型措辞模型已经霸占了中央位置，作为新兴根本模型的示例，在大型无标签语料库上预演习的模型，可以在数量有限的标签示例中为专门任务进行微调。
Transformer在各种领域事情良好这一事实，可能预示着基于Transformer的根本模型超越了措辞领域。

现状：深度学习的历史中，涌现了一些迅速遍及的想法：ReLU激活函数、Adam优化器、把稳力机制，以及现在的Transformer。
过去一年的发展表明，这种架构仍处于发展阶段。

五、政府制订法律

各国政府纷纭拟定或颁布新法规，以掌握自动化的社会影响。

发生的事：随着人工智能对隐私、公正、安全和国际竞争的潜在影响变得越来越明显，各国政府加大了监管力度。

驱动故事：人工智能干系法律每每反响了天下不同政治秩序的代价不雅观，有利于社会公正和个人自由之间的某种平衡。

欧盟起草了基于风险种别禁止或限定机器学习运用的规则，将禁止实时人脸识别与社会信用系统。
掌握主要根本举动步伐、帮忙司法和根据生物识别技能识别职员的系统须要供应详细的文件，证明其安全，并接管持续的人工监督。
规则草案于4月发布，必须经由包括改动案在内的立法程序，可能至少再过12个月才能履行。

从明年开始，中国互联网监管机构将实行有关推举算法和其他它认为扰乱社会秩序的人工智能系统的法规，包括传播虚假信息、助长成瘾行为和危害国家安全的系统。
企业在支配可能影响公众年夜众感情的算法之前必须得到批准，那些违反规则的企业将面临禁令。

美国政府提出了一项人工智能权利法案，该法案将保护公民免受陵犯隐私和公民权利的系统的影响。
政府将在1月15日之前网络"大众年夜众对该提案的见地。
在联邦之下，一些美国城市和州限定人脸识别系统，纽约市通过了一项法律，哀求对招聘算法进行偏见审计。

联合国人权事务高等专员呼吁成员国停息人工智能的某些利用，包括陵犯人权、限定基本做事的获取和利用私人数据的利用。

***背后：人工智能社区可能正在就监管达成共识。
最近对534名机器学习研究职员的调查创造，68%的人认为支配该当更加强调可信度和可靠性。
受访者常日更信赖欧盟或联合国等国际机构，而不是国家政府。

现状：在中国之外，大多数人工智能干系法规正在等待批准。
但零散的提案表明，人工智能从业者必须根据各种国家制度调度事情。

本文系作者个人观点，不代表本站立场，转载请注明出处！

模型人工智能

多模态、万亿参数、生成语音吴恩达回忆人工智能2021_模子_人工智能

热门内容

随机文章

推荐内容

最新内容

TAGS标签

多模态、万亿参数、生成语音吴恩达回忆人工智能2021_模子_人工智能

相关推荐

Z1H1,探索人工智能的未来篇章

书模型,引领未来阅读体验的创新探索

五代编程语言,引领未来技术发展的先锋

人工智能,未来生活的得力助手_基于“入”拼音的探索之旅

人工智能与编程语言,共创未来

栏目热门

热门内容

随机文章

推荐内容

最新内容

TAGS标签