2022前瞻望大年夜模型的未来周志华、唐杰、杨红霞这些大年夜咖怎么看？_模子_人工智能

2024-11-24 04:14:45 智能问答

机器之心编辑部

岁末年初之际，让我们回顾大模型的过去，展望大模型的未来。
28 日，阿里巴巴达摩院发布 2022 十大科技趋势。
个中，“大模型参数竞赛进入镇静期，大小模型将在云边端协同进化”的断言，在 AI 圈备受关注。
2021 是大模型爆发之年，我们见证了大模型的惊艳，但也理解了目前大模型的一些局限，如显著的高能耗等问题。
达摩院认为，超大规模预演习模型是从弱人工智能向通用人工智能的打破性探索，办理了传统深度学习的运用碎片化难题，但性能与能耗提升不成比例的效率问题限定了参数规模连续扩展。
接下来，人工智能研究将从大模型参数竞赛走向大小模型的协同进化，大模型向边、真个小模型输出模型能力，小模型卖力实际的推理与实行，同时小模型再向大模型反馈算法与实行成效，让大模型的能力持续强化，形成有机循环的智能体系。
周志华、唐杰、杨彤霞等多位学界、业界代表性专家，对此揭橥了评论。
大模型接下来会如何发展？岁末年初之际，让我们回顾大模型的过去，展望大模型的未来。
大小模型将承担不同角色
南京大学打算机科学与技能系主任兼人工智能学院院长周志华
大模型一方面在不少问题上取得了以往难以预期的成功，另一方面其巨大的演习能耗和碳排放是不能忽略的问题。
个人以为，大模型未来会在一些事关国计民生的重大任务上发挥浸染，而在其他一些场景下或许会通过类似集成学习的手段来利用小模型，尤其是通过很少量演习来 “复用” 和集成已有的小模型来达到不错的性能。
我们提出了一个叫做 “学件” 的思路，目前在做一些这方面的探索。
大致思想是，假设很多人已经做了模型并且乐意放到某个市场去共享，市场通过建立规约来组织和管理学件，往后的人再做新运用时，就可以不用从头网络数据演习模型，可以先利用规约去市场里找找看是否有比较靠近需求的模型，然后拿回家用自己的数据轻微打磨就能用。
这个中还有一些技能寻衅须要办理，我们正在研究这个方向。
另一方面，有可能通过利用人类的知识和专业领域知识，使模型得以精简，这就要结合逻辑推理和机器学习。
逻辑推理比较长于利用人类知识，机器学习比较长于利用数据事实，如何对两者进行有机结合一贯是人工智能中的重大寻衅问题。
麻烦的是逻辑推理是严密的基于数理逻辑的 “从一样平常到分外”的演绎过程，机器学习是不那么严密的概率近似精确的 “从分外到一样平常”的归纳过程，在方法论上就非常不一样。
已经有的探索大体上因此个中某一方为倚重，引入另一方的某些身分，我们最近在探索双方相对均衡互匆匆利用的办法。
站在 2022，展望大模型的未来
清华大学打算机系教授，北京智源人工智能研究院学术副院长唐杰
2021 年，超大规模预演习模型（简称大模型）成为国际人工智能前沿研究和运用的热点，发展迅速也面临系列寻衅。
最新发布的《达摩院 2022 十大科技趋势》将 “大小模型协同进化” 列为 AI 模型发展的新方向，提出“大模型参数竞赛进入镇静期，大小模型将在云边端协同进化”，值得业界关注。
站在年末岁初，让我们一起回望大模型的 2021，展望它的 2022 和更远未来。
一、超大规模预演习模型迅速发展但也面临系列寻衅
2021 年 8 月，斯坦福大学成立根本模型研究中央（CRFM）并将 BERT、GPT-3 和 CLIP 等基于大规模数据进行演习并可以适应广泛下贱任务的模型统称为 “根本模型”。
虽然这个观点在学术界引起了不少争议，有学者对付模型是否具有“根本性” 提出了质疑，但是该当看到，这些模型所表现出的能够更好处理现实天下繁芜性的能力，使得它们变得愈发主要。
家当界持续推动大模型研发，并不断将模型的规模和性能推向新高。
1 月，OpenAI 发布大规模多模态预演习模型 DALL·E 和 CLIP，谷歌发布 1.6 万亿规模预演习措辞模型 Switch Transformer，10 月，微软和英伟达发布 5300 亿规模的 Megatron-Turing 自然措辞天生模型 MT-NLG。
其余，大模型运用也在不断丰富，目前环球基于 GPT-3 的商业运用已有几百个，随着近期 GPT-3 全面开放 API 申请和微调功能，GPT-3 运用生态也将加速形成。
2021 年也是我国超大规模预演习模型发展的“元年”，目前，已有智源研究院、鹏城实验室、中科院自动化所、阿里、百度、华为、浪潮等科研院所和企业研相继发出“悟道”、“盘古”、“紫东 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。
虽然国内外超大规模预演习模型取得了较大进展，但是同时也应认识到，大模型发展还有很多亟待办理的主要问题。
例如，预演习模型的理论根本尚未明确（如大模型智能的参数规模极限存在吗），大模型如何高效、低本钱的运用于实际系统；其次构建大模型须要战胜数据质量、演习效率、算力花费、模型交付等诸多障碍；末了目前大部分大模型普遍缺少认知能力的问题，这也是部分学者质疑这类模型能否被称为 “根本模型” 的缘故原由之一。
能否通过大模型实现更通用的智能？怎么实现？这些都须要学术界和家当界不断探索。
二、大模型打造数据与知识双轮驱动的认知智能
人工智能经由数十年的发展，历经符号智能、感知智能两个时期，目前来到第三代人工智能即认知智能的大门口。
认知智能不仅哀求基于大数据的深度学习及对应的感知识别，还哀求机器具有认知和推理能力，要让机器具备与人靠近的知识和逻辑，这就对数据与知识的领悟提出了急迫需求。
回顾人工智能的发展，1968 年图灵奖得到者 Edward Feigenbaum 研发出世界首个专家系统 DENDRAL；1999 年互联网发明人、图灵奖得到者 Tim Berners-Lee 爵士提出语义网的观点；图灵奖得到者 Yoshua Bengio 在 2019 年 NeurIPS 大会的主题报告中指出，深度学习该当从感知为主向基于认知的逻辑推理和知识表达方向发展，这个思想和清华大学张钹院士提出的第三代人工智能思路不谋而合。
同期，美国国防部高等研究操持局（DARPA）发布 AI NEXT 操持，核心思路是推进数据打算与知识推理领悟的打算，还委托了伯克利等机构，开展 SYMBOLIC - NEURAL NEWORK（符号加神经网络打算）研究，其目的便是要加快推进这一进程。
总的来说，研究数据与知识领悟的双轮驱动 AI 时期已经到来，核心是利用知识、数据、算法和算力 4 个要素，不仅是利用数据驱动的方法来建构模型，还须要将用户行为、知识知识以及认知联系起来，主动 “学习” 与创造。
智源研究院研发的 “悟道” 大模型是我国具有代表性的超大规模预演习模型，探索了大模型研发的其余一条路径，旨在打造数据与知识双轮驱动的认知智能，建立超越图灵测试的通用机器认知能力，让机器像人一样“思考”。
在大模型研发过程中，我们初步定义了大模型须要具备的 9 种机器认知能力（T9 准则）：
1. 适应与学习能力：机器具有一定的模拟能力，能够通过模拟和反馈学习人的措辞和行为；
2. 定义与情境化能力：机器能够根据感知高下文场景做出反应（措辞和行为反馈），并担保反应的同等性；
3. 自我系统的准入能力：机器具有一个稳定的人设（如：稳定的生理大五人格），在天生对待事物的不雅观点时，不会随意改变自己的不雅观点和情绪方向；
4. 优先级与访问掌握能力：机器具有能创造自我不雅观点的抵牾和纠结，但终极能做出一个选择，并在后续行为中保持同等；
5. 调集与掌握能力：机器能主动搜索与自身人设同等或者符合自身利益的内容（***），并对其进行正面评论；反之也能搜索与自身人设相违背的内容，并对其进行回嘴；
6. 决策与实行能力：机器能主动搜索内容信息、统计其他机器与人的不雅观点与方向，根据自身人设做出对自己有利的决策并实行；
7. 缺点探测与编辑能力：机器能自动对无法判断的事物进行假设，并进行追踪，如果创造假设缺点或者假设不完备，能自动进行编辑改动；
8. 反思与自我监控能力：机器具有自动校验能力，如果创造实行的操作禁绝确，具有自我监控和改动的能力；
9. 条理与灵巧性之间的能力：机器能够自动方案和担保实行操作之间的条理性；同时如果创造条理禁绝确的时候，具有一定灵巧性，可以改动自己的行为。
要全面实现以上 9 种机器认知能力还有很长的路要走，但我们坚信下一个人工智能浪潮的兴起一定伴随着认知智能的实现，让机器具有推理、阐明、认知能力，在多项人类感知与认知任务中超越图灵测试。
大模型已经在认知智能发展上进行了一年的探索，并取得阶段进展。
三、大模型的未来
《达摩院 2022 十大科技趋势》提出，大小模型将在云边端协同进化。
大模型向边、真个小模型输出模型能力，小模型卖力实际的推理与实行，同时小模型再向大模型反馈算法与实行成效，让大模型的能力持续强化，形成有机循环的智能体系。
这一不雅观点富有启示性，而且有助于大模型从实验室走向规模化的家当运用。
在我看来，未来大规模研究将更加看重原始创新，环绕认知智能以及高效运用等多个角度展开。
在认知智能方面，模型参数不用除进一步增加的可能，乃至到百万亿、千万亿规模，但参数竞赛本身不是目的，而是要探究进一步性能提升的可能性。
大模型研究同时看重架构原始创新，通过模型持续学习、增加影象机制、打破三元组知识表示方法等方法进一步提升万亿级模型的认知智能能力。
在模型本身方面，多模态、多措辞、面向编程的新型模型也将成为研究的重点。
在高效运用方面，将大大降落大模型利用门槛，让大模型用起来，促进中小企业形成 “大模型 + 少量数据微调” 的 AI 工业化开拓模式。
紧张实现：
1）降本钱：降落模型在预演习、适配下贱任务、推理过程中的算力花费；
2）提速率：通过模型蒸馏、模型裁剪等手段提升千亿或以上规模模型推理速率 2 个数量级；
3）搭平台：通过搭建一站式开拓及运用平台供应从在线模型构建、在线模型支配、运用发布的全流程预演习做事，能够支持成百上千个运用的开拓与支配，相信后续大模型的广泛运用将成为赋智我国经济高质量发展的关键助推剂。
思考的快与慢，与下一代人工智能
阿里巴巴达摩院人工智能科学家杨彤霞
人工智能学者一贯试图从大脑事情模式中汲取灵感，但大脑究竟如何思考是非常繁芜的课题。
诺贝尔经济学奖得到者丹尼尔 · 卡内曼教授的《思考, 快与慢》指出，人的思考有两种模式。
我们很多时候下意识地作出反应，是快的模式。
举个例子，如果每天从家到公司的路线千篇一律，就不须要做太多思考，沿着原路走就行，这是快思考。
什么是慢思考？溘然有一天，公司和家之间在修路，须要重新方案路径，这时就不得不进行慢思考。
基于大脑思考的模式，办理下一代人工智能的核心认知推理问题，是我们团队近几年最主要的目标。
GPT-3 引发了大家投入大模型研发的巨大激情亲切，但由于大模型的能耗和效率问题，学界又对是否一定要用大模型提出疑问。
通过大量的实际探索，我们认为，大模型和小模型可以协同发展，分别承担慢思考和快思考的任务。
云上能容纳海量知识的大模型，就像超级大脑，有能力进行慢思考，而在端上与大模型协同的小模型可以实行快思考。
近年来，随着预演习技能在深度学习领域的飞速发展，预演习大模型（大模型）逐渐走进人们的视野，成为人工智能领域的焦点。
大模型在文本、图像处理、***、语音等多个 AI 领域实现较大打破进展，并逐渐成为 AI 的根本模型（Foundation Model），同时大模型也在积极与生命科学领域进行结合，包括在蛋白质、基因等方向取得进展，并在细胞分类、基因调控关系创造、细菌耐药性剖析等任务中前景广阔。
可以认为大模型是目前办理推理认知问题最前辈的工具，不过预演习大模型还有亟待打破的几个课题，比如：
1、目前的主流实践是先通过演习大模型（Pretrained Model），得到参数规模大、精度高的模型后，再基于下贱任务数据，通过剪枝、微调的方法（Finetune）将模型的体积压缩，在基本不丢失精度的情形下减轻支配的压力，目前业界还没找到通用的、直接演习小型模型就能得到较满意精度的办法；
2、演习千亿、万亿模型动辄就上千张 GPU 卡，给大模型的推广和普惠带来了很大的寻衅；
3、预演习模型 Pretrain 阶段参数量大，目前紧张采取大量非构造化数据进行演习，如何与知识等构造化数据进行结合，让模型更加有效地实现认知推理，也是一个非常大的寻衅。
在办理大模型亟待打破的课题方面，我们做了不少考试测验，可供业界参考。
今年 11 月，我们发布了环球首个 10 万亿参数的多模态大模型 M6，比较去年发布的 GPT-3，实现同等参数模型能耗仅为其 1%，降落了大模型实现门槛，推动了普惠 AI 的发展。
今年 10 月我们对外开放的云做事化平台是目前业界覆盖下贱任务最广泛的平台，涵盖各项单模态和跨模态的理解及天生任务。
目前，M6 已在阿里巴巴超 50 余个不同业务场景中运用。
未来，除了通过低碳化发展绿色 AI、平台化运用推进普惠 AI 以及打破认知推理等技能外，我们希望大模型还能积极探索与科学运用的结合，潜在科学运用方向可能包括脑神经连接图谱绘制、脑机接口、透明海洋等领域。
在形成更高效、更广泛的智能体系上，大小模型在云边端协同进化带来了新的可能性。
在边端与大模型协同的小模型实行快思考方面，我们也进行了积极探索和规模化落地。
大模型可以向边、端小模型的输出，让小模型更随意马虎获取通用的知识与能力，小模型专注在特定场景做极致优化，提升了性能与效率；同时小模型向大模型反馈实行成效，办理了过去大模型数据集过于单一的问题，末了全社会不须要重复演习相似的大模型，模型可以被共享，算力与能源的利用效率得以最大化。
这一模式有望构建下一代人工智能的根本举动步伐，在让人工智能的通用能力进一步提升。
经历符号主义的衰落与深度学习的繁荣，我们来到了新的路口。
科技的进程每每由天才般的灵感与极大量的实践推进，人工智能的演进也是如此，在收敛与发散之间不断探求打破口。
大模型是一个令人激动的里程碑，接下来该走向何方，我们或容许以连续向自身追问，在快思考与慢思考中获取新的启迪。