采访:闻菲

顶级AI学者邢波:机械进修缺乏清晰理论框架需重定评估目标方法_机械_算法 智能助手

2021年1月,环球打算机科学和人工智能领域顶级学者邢波教授(Eric P. Xing)正式出任环球首个人工智能大学 MBZUAI 的创始校长。
日前他接管了机器之心的专访。
在超过4个小时的访谈中,邢波教授分享了他的治学和治校之道。
考虑到篇幅,我们将采访整理分为高下两篇发布。

上篇也即下文是他对机器学习和人工智能领域现状及学科发展的意见;下篇则是作为 MBZUAI 正式创始校长,邢波教授对学术管理及领导力,对研究品味,以及对探索创造新的、更加符合当前时期的 AI 科研和教诲环境的思考。

近年来人工智能高速发展,却不想领域内重商主义气息愈加浓厚,随着企业和高校在设备、人才乃至研究话语权之间展开竞争,AI 的科研和传授教化加倍受市场和成本所旁边。

成为一名「教授」所能得到的回报和名誉感,以及自由探索的空间,都大不如前。
研究职员面临着一种困惑,是索性顺应这个时期的潮流去当学术网红,还是靠注水、刷榜成为所谓的高产学者,由于在越来越多的情形下,囿于资源、制度等成分,静下心来研讨真正有代价的问题,彷佛已经成为一种奢侈。

「在如今学校的科研环境里,很多学者都有一些挫折感,学生也比较迷茫,我想这一点大家是很清楚的。
」2021年3月,卡内基梅隆大学(CMU)打算机科学学院教授,刚出任 MBZUAI 正式校长不久的邢波教授(Eric P. Xing)在接管机器之心专访时说。

MBZUAI 全称默罕默德·本·扎耶德人工智能大学(Mohammad Bin Zayed University of Artificial Intelligence),2019 年底在阿联酋阿布扎比成立,是环球第一所专注于人工智能的大学,仅供应研究生课程,强调研究型机构特色,最初由图像剖析领域先驱、1985 年在牛津大学创立机器人研究小组(现今 Oxford Robotics Institute 前身)的 J. Michael Brady 爵士任临时校长。

被任命为 MBZUAI 正式校永劫,邢波教授表示 MBZUAI 致力于在人工智能的教诲和研究中追求卓越,他希望在这个新的平台上培养出具有基本 AI 素养的新一代领导力人才,能够通过学术研究和家当运用充分发挥人工智能的潜力,同时让 MBZUAI 成为阿联酋经济和社会发展的一股积极影响力。

作为环球打算机科学和人工智能领域的顶级学者,同时也是深谙 AI 实际运用的精彩商业领袖,邢波教授非常理解自己面临的磨练。
出任 MBZUAI 的正式创始校长,是他给自己定下的一个目标,希望通过这个从零开始的机会,探索创造一种新的、更加适应当代哀求的科研教诲和技能转化环境,并通过这个环境,对 AI 发展做出应有的贡献。

根据打算机科学领域的威信排名 CS Rankings,从 2011 年到 2021 年,在包括人工智能、机器学习、系统、理论、交叉领域等全方位打算机科学研究中,CMU 是环球范围内产出高质量研究最多的机构,而邢波教授是 CMU 里产出高质量研究最多的学者。
来源:csrankings.org

1993 年,邢波教授从清华大学物理系毕业,随后进入罗格斯大学攻读分子生物学和生归天学博士学位。
1999 年博士毕业后,他进入加州大学伯克利分校,连续攻读打算机科学博士学位,师从图灵奖得主 Richard Karp,以及更为如今 AI 界所熟习的 Michael I. Jordan 和 Stuart Russell。

2004 年,拥有双博士学位的邢波教授加入 CMU 的打算机科学学院,在这一天下领先的打算机科学研究和传授教化环境中潜研至今,从助理教授开始,到 2011 年取得终生教职,再到 2014 年得到教授头衔。
2015 年起,他开始肩任较为主要的学术管理职责,包括出任 CMU 与匹兹堡大学医学中央联合成立的「机器学习与康健中央」(Center for Machine Learning and Health)的创始主任,并从 2016 年 7 月起升任 CMU 打算机科学学院机器学习系的研究部副主任。

同样在 2016 年,邢波教授还创办了 Petuum,这是一家致力于供应人工智能和机器学习根本工程框架的公司,基于他以前在参数做事器方面的首创性成果,公司的愿景是希望 AI 和机器学习办理方案像乐高积木一样,是模块化、可拆解、能够自由组合搭配利用的。
Petuum 于同年和次年连续两年入选 CB Insights 环球 AI 创企百强榜单「AI 100」,2018 年入选达沃斯经济论坛「技能先锋」。

像所有崇尚数理美感、追寻「万物皆数」的科学家那样,邢波教授认为人工智能也该当是须要去理解的,正如这个物理天下的规律可以用数学的措辞去表达。
从 2019 年开始,他便带领团队从丢失函数的角度入手,考试测验创造不同机器学习算法和模型间的共性,试图构建一个从形式化角度统一理解机器学习的理论框架,为今后人工智能的可工程化铺垫。

邢波教授团队从丢失、优化求解器和模型架构等方面入手,为基于履历和任务的机器学习方法供应了一个统一的数学公式(standard equation)。
他们创造,监督学习和无监督学习可以在数学上有着类似或相同的表达。
来源:Eric Xing & Zhiting Hu, A Blueprint of Standardized and Composable Machine Learning, Petuum & Carnegie Mellon, 2020.

与传统将「科学」和「工程」置于天平的两端去比较不同,邢波教授认为工程是承继科学之后的一个发展阶段。
他指出调参或试错不是「工程」,AI 领域里真正工程化的事情还没有展开。

不才文的采访整理中,邢波教授分享了更多他对机器学习和人工智能领域现状及学科发展的思考。

一、看机器学习领域现状:缺少理论和工程上清晰的框架

机器之心:我看了您近期的一些***演讲,您提出了一个standard equation,想要统一所有的机器学习范式或模型,并且让它们像乐高积木那样可组合。
这源自您对机器学习发展若何的理解?提出这样的统一的表达公式之后可以为领域带来若何的启示?

邢波教授:这的确是一个非常关键的问题,也是一个很难的问题。
我们在做这项事情的时候,并不是为了统一而统一,实际上是很自然地演化进入到了这么一个阶段。
机器学习和人工智能过去这十几年的飞速发展,产生了很多大大小小的结果,但是它们基本上都是勾留在一个学术探索、试错、积累的状态,还没有形成一个完备的体系;乃至还没有归纳出严格的形式规范、理论根本和评估方法;没有呈现像物理、数学里面类似哥廷根学派、哥本哈根学派那种立足于某种核心理论,方法论,思考逻辑,乃至科研风格的school of thoughts。
以是目前的多数成果对付工程落地和实现愿景并不是非常明确。
但是人工智能又被"大众年夜众和社会授予了极大的期待,希望能够尽快地落地。

这就形成了目前这样纷乱的拓展局势,包括各种结果之间是否兼容,是不是能够组合,是否有重复,是否有冗余。
这些问题都没有来得及回答。

在以前的研究里,我个人的兴趣会期待有一种比较清晰、简洁、实用,理论上具备严格逻辑且完全叙事的办理办法。

因此我对目前全体领域的这种比较混乱的发展局势是有一些关怀,或者说乃至是有一些保留的。
以是我以为须要有一个事情去把它们整理一下,看看到底是怎么回事。

然后在工程上对此也有客不雅观的须要。
很多人尤其是科学家圈子,对付工程的理解实在有一些偏颇之处。
诸多研究生、教授对付工程这方面的事情实际上是持鄙夷或者是轻视、唾弃的态度。
自认为我是科学家,那是工程问题。
他们把编程、调参、系统优化、hack或者是试错的方法,乃至标准化、模块化的事情都认为是工程,以是他们会有一些高高在上、不屑一顾,甚至鄙弃的意见。

但是我对工程的理解实际上是不太一样的。
我认为如果要把一个学科升级到「可工程化」阶段的话,实际上代表了这个学科的成熟——工程是高于科学的。
只有把科学事理搞清晰,办理了重复性、标准化这些问题之后,我们才能开始真正的工程。
我以为"大众年夜众对付工程化、落地化的需求,人工智能科学尚未知足,科学方面还须要再走一步,来做标准化和统一的事情。

比如说土木工程、化学工程,或者生物工程,你会创造它们实际上是涌如今力学、化学或者生物学之后的,而不是先有了这些工程,再有这些科学。

而在人工智能里面,我以为大家没有理解这个顺序,把工程鄙视成调参或者试错,而把科学升得过高了,以至于所谓「科学」走得太快,没有停下来做一些整理或者接管。
以是我以为 AI 领域里,工程化事情实在还没有真正的展开。

这次胡志挺博士和我做的有关 standard equation(标准方程)的事情,是希望把已有的 AI 事情进行整理,为往后可能的工程化来铺路。
工程化就表示了刚才我们讲的可组合、乐高式的拼接。
你会创造这个是目的,但是达到这个目的手段就已经涵盖了对付标准化、安全性,对付可阐明性和数学简洁性的哀求。

综上所述,我们这个事情不是为了统一而统一,是到了一个很自然的节点,有这样本色性的须要,况且目前也积累了这么多素材,我们就恰好处在这么一个很好的机遇来做这项事情。

概括来说,标准方程便是用一个普适通用的公式来表达各种机器学习范式,比如传统的最大似然监督学习和无监督学习,贝叶斯学习,还有增强学习(Reinforcement Learning),主动学习(Active Learning),对抗天生学习等等。
它们目前都有自己的狭义乃至专有的数学形式和打算方法,在每个局域里每年又都有大量的成果揭橥出来,形成了一个极其弘大的算法「野生公园」,每年新增的「新算法」不下上千。
常日我们定义或者开拓一个学习范式,须要从三个方面给出方案:目标方程、模型架构、算法。
常日目标方程为主,定义了范式的基本数学实质;其他为从属,给出了详细的特色化手段和打算手段。
目前大量的成果集中在比如模型架构,包括各种深度模型构造,概率图模型,核函数等等;以及各种算法,包括各种梯度的衍生物,蒙特卡罗,优化加随机的朗之万方法,等等。

我们提出的机器学习标准方程包含三个项:experience function(履历函数),divergence function(间隔函数),uncertainty function(不愿定性函数)。
我们创造,对每一项的函数选取特殊的实例化(instantiation),可以还原险些所有已知机器学习范式。
给定 standard equation 实例,则任意模型架构,算法,可以自由调用。

我们在机器学习标准方程上的事情,现在还仅限于对目标方程来做统一的处理。
今后不用除提出通用的算法(所谓的 master algorithm,万能钥匙算法),以及通用模型(比如像 BERT 这样的所谓 all-purpose model,全能模型)。

目标方程是指在演习一个机器学习模型的时候,须要对模型好与坏做出判断,而且能够对付方程进行有目的的优化。
其余,对付我们演习模型所利用的各种信息原材料,须要一个赛道来引入。
这便是我们所说的从「所有履历」中学习:learning from all experiences。

大略举例:常日我们在演习一个人的时候,一种办法是用范例,给他看 1000 张图片,或者把英语各种词给他说几百遍,或者是让他见到无数多的样本,这是一种方法。
但是,在人的学习里还可以通过很多其他的 experiences,比如我可以直接见告你规则: 与其见告你 1+1=2,2+2=4,… ,我可以见告你 x+x=2x。
这便是一个规则。

我们还可以直接总结或者提取规则:比如看高斯在做加法的时候,大家都说高斯很天才,他9岁的时候就发明了等差数列求和方法,打算从 1 到 100 这 100 个整数之和,他是把 1+100,2+99 得到 101,然后再乘以 50。
这便是一种规律,而不是说把数字全加起来。
这是一种学习办法,着眼于规则,而不是基本数据 (raw data)。

还有让人去做实验或体验,比如拍浮,学习手脚若何姿势,但是靠看教科书上的理论是无法学会的,必须要跳到水里去亲自游,体验这个姿势能不能让身体浮起来,能不能游动。
这又是一种办法,思路上靠近于增强学习(Reinforcement Learning),强调系统和环境的互动、探索、反馈。

还有模拟学习(Imitation Learning)。
比如学钢琴,大概有人可以见告你按键要用 50 克的力道,然后照着某一个音符来弹,这是一种最极度的规则式教法。
也可以设想有老师会把同一音符或者乐曲用各种速率、音色、力量弹几百遍给学生作为演习数据集,实现所谓「监督学习」。
乃至可以设想老师只供应你乐谱,或者没有乐谱而只放一遍音乐,然后放手让学生自己模拟乃至发挥,实现所谓「无监督学习」。
听起来都很不可思议,不太靠谱?还有一种大师班里的教法,大师说你在边上不雅观摩,我给你弹一段,他就直接弹奏一段,然后说你随着学。
在学的时候这便是 imitation,让你去模拟,但并不是用可监督或无监督的学习,实际上是一种新的模式。

还有一种类似现在的对抗天生式,一种寻衅性的博弈式的演习学习,让你来天生一个例子,然后来看看你的例子能不能把我给「欺骗」住。
这些都是学习的办法。

在目前的机器学习里面,对每一种办法都采取了自有的一套 paradigm,有时也被泛称作「算法」,但实际上包括了建模、定目标方程、末了的优化算法,这些都是不一样的。
以是可以想象,方法论繁杂浩瀚。
每一个不同的履历、每一种不同的数据、每一个不同的演习信息来源,都是利用不同方法来获取的。

我们在做标准方程的时候,试图把这些不同的方法都统一到一个赛道里面,或者是用一套方程来写。
这样至少首先让大家搞清楚我在做什么,大概我做的两个东西,把它写成方程往后,便是同样东西,它们大概没那么不同。

以是说理解全体演习过程本身,就已经相称有实际意义。

比如说 maximum likelihood learning(最大似然法),或者 Bayesian learning(贝叶斯演习),或者是 reinforcement learning(增强学习),它们实际上有类似或者完备统一的数学形式,乃至可以共享很多过去专用的高效优化算法,例如 policy gradient 和它的更强的衍生算法。

原来为了某一个演习的平台发明的算法,实际上可以用到另一个地方,它可以使优化算法的利用性拓宽,能够通用,这也是其余一个好处,能够供应这种组合的便利。
由于有时候你可以把不同的履历合并在一起,而不用重新发明一个新的数据平台来做这样的统一。

就像人是用同一个大脑来学所有东西的。
不是像在大学里一定要分科,有些人非要学文,有些人非要学理,然后学不同的方法还要细分。
同一个人,既可以文也可以理,也可以学不同的东西。
这实际上是我们希望在机器学习里能够带来的结果。

总之,在一个实用性的目标之下,把已有的成果和履历做一个梳理,末了用精确扼要的表达来涵盖我们目前的结果,有效简化往后的学习和实现,同时便于进行更通用的理论剖析。
这是对我们的机器学习标准方程事情的一个基本概括。

我在我的讲演里面用了一个例子,讲到了19世纪时物理学的状况。
那时候电学、磁学、光学、力学都是分开的,大家认为它们是不同的领域,有很多看上去很不干系的事情被做出来了,形成了很弘大的一套结果。
这对付学生来说,学会这几门学科已经要花很多韶光,要看出规律、进一步往前推进就更难了。
实在这是灾害性的。

但麦克斯韦把电磁统一了往后,就导致了对付这两种看似不同的自然征象的互为因果对称转化的理解和运用(比如通过磁转子来发电),乃至后来的对付光的波粒二象性的物理实质的理解,以及对付量子力学和电磁学的统一框架供应了思想上的启示,然后就创造物理衡量,比如光的常数——光速、普朗克常数、……,这些东西通过一套统一的理论话语,会看到里面缺什么,就会认识得更清楚了。
它实际上更能够推动创新。

电磁统一过后,后来经由了杨振宁和米尔斯的规范场,现在物理里面从电到磁到弱力到强力,这四个都已经统一了,剩下只有引力没有统一。

这种统一一方面包含了自然哲学之美,另一方面也使很多东西有了运用和通用的可能。
比如在电磁学统一了往后,人们对电磁的交互就产生了更深刻的理解,以至于后来制造出发电机、电力时期的产生,当时科学上的前瞻是起了很大浸染的。

我们也希望在 AI 里面形成这样一个理论上更清晰的框架,能够使往后的创新站在更好的根本上,也使落地事情有一个更好的工程框架,让新的事情能够有更好的方向性。

机器之心:我可以这么理解吗,您认为 AI 或者说至少机器学习领域是存在这样一个统一框架的?

邢波教授:这个我以为还不太好说。
首先实质上什么叫做「统一」这个问题就有待谈论,这个词本身有模糊性。
我倒不以为统一就一定意味着用一个公式把所有的成果全都包含。
我只因此为有必要把本来该当是同样原则的东西(但其表象不一样)溯本求源地创造出来,阐明清楚。

不是为了统一而统一,而是把这些原来的统一或者原来的同等性的东西讲清楚。
比如说引力和电磁力到底是不是相同实在还不太清楚。
大概它们是不同的,大概它们是相同的,须要给出个回答。
以是我没法预期它的终极形态,但是我以为这个事情本身是有必要的。

机器之心:基于您现在的标准方程,您认为很多机器学习办法实质上是一样的,不管它是呈现出增强学习或者深度学习、对抗天生学习等形式,可以这么说吗?

邢波教授:这个问题难以用是与不是来大略回答。
由于我不能担保断定它们是一样的。

机器之心:您刚才提到,很多东西看起来是很多不同的结果,实际上是一样的,我们现在就来提炼出实质。

邢波教授:这个问题比较繁芜,所谓「一样」是有不同的定义的。
一种是形式(symbolic)上的一样,另一种是物理(physical)上的一样,另一种是工程实现(realization/implementation)上的一样。
这几个一样实际上是在不同层面上的。

现在 standard equation 只是供应了形式上的一样,但它是不是在物理上是一回事,我们还没有试图回答这个问题。
比如,在标准方程第一项——履历函数(experience function)中,我们既可以嵌入数据履历(data experience),也可以嵌入来自和环境交互的回报履历(reward experience)。
前者等同于最大似然学习,后者等同于增强学习。
但是,这两种学习在标准公式中形式上的同等,并不代表它们学习的是同一种东西。
前者是静态的模型下的隐变量和模型参数;后者是一种叫做策略(policy)的东西,是系统态(state,一种隐变量)和动作(action,常日是可测变量)之间的映射方程(mapping function)。
以是这两种对付 standard equation 的实例化(instantiate),对应了物理内容上两种不同的学习。
可以说它们的公式看上去是一样的,就像自然措辞的算法和打算机视觉的算法,它们的数学公式可以一样,但它们显然是不同的。

这就表示两件事在形式上有同等性,但它们本色上的物理内容是不一样的。
以是还是得看利用场景和详细的问题。
但这种形式的同等性,可以给予研究者更大的想象空间和操作空间:比如可以把「数据履历」和「回报履历」相加,乃至加入更多的履历(比如对抗履历),那终极演习出来的系统是什么呢?它的理论特色为何?不同履历之间相对影响若何?能否非线性组合?用什么算法来演习?……这些都是我们希望标准方程能引发的新的研究课题,非常有趣。

还有一个更大的空间,我还没有深入地研究:常日机器学习里包括目标方程、优化算法(便是用数学工具来做优化),还有一个是模型本身。
模型在数学里面用 p 代替,或者用 f 代替,但这里面包罗万象。
全体深度学习革命的事情一大部分都是建立在模型里面做创新,比如把它从一层变成 100 层,然后把里边的构造做不同的细化。

像现在的 co-attention model、transformer、LSTM 这几个大型的深度学习模型,实在都是在模型空间里面做创新。
而天生对抗模型(GAN model)是另一个层面,是在目标方程里面做创新。

我讲课的时候会把这些东西梳理一下,让大家知道创新点在何处。
但是现在在我们大众或者乃至是在某一个层面社区内对这个意义,都是混在一起。

以是我现在的事情目标之一便是把这些梳理清楚,让大家知道创新的方向在何处,或者我们现在的结果该如何评估、处置。

算法里面当然有各种各样的创新,刚才我们讲到的梯度便是最大的一个算法。
Back propagation 实际上便是梯度里的一个特例而已,EM 也是梯度里的一个特例。

除了梯度以外,还有其余的算法。
比如遗传算法就不是梯度算法,蒙特卡罗也不是。
我们有时候会说 zero order(零阶)或者 first order(一阶)、second order(二阶),实在已经把算法层面上的大致方向做了一个概括。
但是这个空间里面也有很多事情可以做。
比如我们最近的一项事情叫做 black-box optimization,黑箱优化,用来支持 Learning to Learn,属于元学习(Meta-Learning)中的一项任务。
由于优化的工具本身便是一个机器学习算法或者模型构造,而不是详细的形式化好的方程里的参数,无法求导,而只能采取试运行(Query),每一次都很昂贵(试想每一次都相称于在特定超参数设置下演习一遍 BERT),如何用最少的试运行找到最好的超参数得到最快演习速率和最佳演习结果?这些都是很有趣的问题。
在标准模型框架下,这样的研究会有更好的理论和运用潜力。

在标准模型下,所有以上事情都会直接得到通用性,兼容性,真正做到举一反三:为增强学习设计的算法可以直接用到普通的最大似然学习,达到数据强化(data augmentation)的效果;为序列数据(sequential data)设计的深度模型可以用来表达policy;对付监督学习所做的边界鲁棒性剖析也容许以覆盖其他学习范式。

我以为现在很多创新缺少精准的定位。
任何一个详细事情都是多维的,如上所述的目标方程、模型、算法;目标方程里包括履历函数、间隔函数、不愿定性函数;个中履历函数里可以包括数据、规则、回报等等,而间隔函数可以包含 KL-divergence,JS-divergence,cross-entropy,等等。
常日在做创新的时候,或者是在定义创新、评估创新或结果的时候,是须要把那些不变维设成常数,然后拿创新维做变量,再评估结果,然后再轮换。
但是如果一口气把目标方程换了,把模型也换了,把算法也换了,末了得到新结果,实在是很难让自己或者别人复制或阐明到底是哪方面的创新达成了你的最佳结果。

这也是为什么升级工程产品的时候,比如说造一架飞机,常日如果要测试引擎的力道,会把其他的东西都固定,比如飞机的载重或者是造型、流体动力学都是固定的。
然后通过引擎的调度或者升级,能够当作果是多少。

但要考虑更新机翼的话,如果其他方面不能利用常量,一口气把飞机从形状到动力到材料全换了,末了总结这架飞机更好。
但到底是哪里好?为什么好?这是搞不清楚的。
我希望能够进一步提倡这种比较严密的研究思路。
虽然可能会减缓创新的速率,但是成果可能更随意马虎积累或者更随意马虎被消化。

二、看机器学习评估方法及目标:Leaderboard 毛病在哪?

机器之心:您认为衡量机器学习算法或者模型的利害,便是该当准确地定位创新点详细在哪里,可以这么理解吗?您曾经提到过,业界现在被非实际性能还有排行榜迷花了眼,大家都比较专注于那样的提高。
您也在考试测验一种新的方法来评估机器学习模型,您能不能就此展开一下:除了您刚才说的详细知道哪方面有所创新,还有如果我们不看性能,不看精确度,不看这些,当然也会考虑到打算花费的能量,那我们看什么呢?

邢波教授:这个问题问得挺好的。
刚才我讲的所谓「固定两点来看第三点的影响」实际上是评估方法,不是评估的目标。
这个目标须要设定,你刚才的问题实际上是问到了我们根据什么目标来评估。

先讲评估方法。
无论对哪一个目标,都该当每次把其他的不动维定下来,然后把变动的那一维明确好,这样一维一维地来精准评估创新的代价或者效果。

当然也可以同时两维,但是你全部改动了往后,是会 confounding,产生稠浊,或者这些维度之间的关联或其他未知成分相互影响造成缺点的判断。

现在假设我们的评估方法是对的,那么去评估哪个目标呢?这个问题其实在业界也有争议,或者说值得去深入思考。

目前业界在机器学习里面,基本上有两种评估目标。
一种便是所谓的数学自定义目标,比如说模型方程里对付演习数据的边缘概率(marginal likelihood)或全概率(complete likelihood);或者拟合中的或然度或者叫error margin(偏差幅度),虽然根据标注来定的,但基本上是内置的(endogenous),是基于模型对付数据和偏差的假设的。
另一种是外延的(exogenous)目标,便是根据纯粹人的判断来弄好。
大概便是这两条。

狭义上说,后者便是纯粹用人工标注所定义的缺点率,基本上就定义了所谓的榜单。
我们常讲「刷榜」刷的是什么榜,便是人为设定好的 gold standard,然后去评比。

这两种方法,第一种方法是有数学自洽度的,对付理论的完备绝对是有用的,由于它能够证明所谓的 consistency,同等性、收敛性,这都是通过自定义的目标可以搞清楚的。
但是它的代价也仅在此而已,由于内置目标的优化跟外界的功能目标是否同等完备没有保障。

以是我们会用第二种,exogenous 目标,最大略的便是人的标注。
我分两个层面来讲,首先人的标注代价何在,这是有问题,值得谈论的。

我们先把这个问题定下来。
假设人的标注是完备有代价的,值得拼力刷这个榜。
我们在比分结果做得很高了往后,是否就可以算大功告成呢?我认为仍旧是不足的。
假设人的目标都是对的,目标函数是对的,但是它对付机器学习学科的发展实在还是不足,由于做人工智能的话,至少现在"大众年夜众对它很大的哀求是要形成工程化,可落地性。

这个中工程的质量就包含了很多其他层面。
第一点便是安全性,还有本钱、环保等等。
这些都跟标注没有关系,或者关系很少。

比如说飞机或者汽车实现安全保障的数字是惊人的。
一款汽车要想被交通部批准能售卖,基本上要实现每一亿公里安全无伤亡事件,是有一定道理的。
飞机被许可飞的话,基本上还得加一到两个0,基本上是每百亿公里不能出伤亡事件乃至任何事件。
这种事件率都是10的-9或-10次方,跟照片识别度达到精度千分之一或者万分之一完备不是一个观点。
首先照片识别度达不到10的-9或-10次方,常日我们宣告一个算法成功,基本上精度达到 99.99% 就差不多了。

在飞机零件里怎么能够达到很低的缺点率,并不是把飞机实际去飞多少万次往后看它是不是出事件。
末了可能会这么做,但一开始的时候肯定不是这样子,它实际上是测试每一个零件。
有一个error graph,或者error tree,是有一套图能够把缺点的通报(propagation)放大或缩小,是用一个图来表示。
然后测试引擎,测试机翼,测试起落架,然后我们能够做出判断,它的每一个缺点怎么通报到下一级,是被放大还是被进一步缩小,这都是有很好的理解。

以是上次波音737MAX 机型事宜出来往后,末了能够一贯追溯到某一个传感器部件的数据识别与操作,发觉在适航认证过程中质量指标没有被及时更新,用了一个大略过期的技能数据来定义了组件的质量标准,对系统未做足够的压力测试,是软件上的轻忽,但终极能够被追溯且锁定问题出处。
创造问题所在往后,重新设置这个指标,就可以办理这个问题,防止类似事件再次发生。

在人工智能里面,目前完备没有这样一个方法论或者思路。
基本上便是看末了的结论是不是好,然后再开始调参。
它从来不是一个分割或者是组合,也从来没想过比如人脸识别或者汽车识别算法怎么能够跟其余一个自动掌握软件结合再进行下一步,它们和干系硬件模块的关系,终极是不是因误判撞人,会不会导致能量透支等等。
我们都不是这么测试。

以是我现在就想提出 leaderboard 的 insufficiency 不仅仅局限在 leaderboard 本身到底是不是定义的对、是不是在精确的目标里面,而是说它实在基本上便是压制了人们对全体项目和产品的构造和安全度(的评估)。
还不包括本钱,这个代价还没有讲。

以是它的弊端实际上是非常大的,不仅仅造成了缺点的设计问题,对人的心态和工程代价不雅观也产生了影响,使人不去关注安全性、环保性、本钱等其他影响因子,或者是标准化、政府监管,这些都无从入手。
由于它没有节点,是一个black box,以是很多人做不了。
但是你会看到在化工、土木工程,在生活当中,它的环节是清晰划分的。

以是我们在做 regulation(规范化)的时候并非顺畅。
规则大家都恨,由于它会降落速率。
但是在工程上规范化,它的侵害度或者影响度是可控的,可以说我只规范这一步,其他已经由关了的,可以给它过关。
以是可以把焦点聚焦得很快。

在 AI 里面,现在规范化很难做,要么便是你不能享有这个数据或者这东西不能用,黑白分明,要么整体否定,要么整体许可。
缘故原由是没有把这个东西分割出来。
我以为研究者本身的思想方法和全体行业的惯用方法,实在是须要去思考的。

机器之心:我记得前段韶光有一个团队不做 regulation,在图像分类和识别上也达到了 SOTA 性能。
大家都是在追求端到端,近几年这种端到真个优化也好,或者结果也好,业界是非常推崇的。

邢波教授:我对它有保留,实际上我非常反感整天把「SOTA」这个词挂在嘴边,缺少应有的严明和敬畏。
State Of The Art 不是只指肤浅的一个数字或比分,它实际包含了理论完备性、工程严格性、稳定性、质量、本钱等等很多要素;不幸的是它现在被刚刚入门者们完备庸俗化了,搞得跟杂耍练摊似的,每几天就被打破一次,且不论真正重量级选手是不是陪着玩,比赛本身是否故意义。

回到评估,我以为在评估的标准上该当落地,不仅是产品落地、评估标准化落地,本钱也要落地。
大家可能没有想到现在演习一个 GPT-3,据宣布是 1200 万美元,相称昂贵。
这会造成很多结果,一是独家享用,一样平常人玩不起,这样就造成了不平均性,很小众,造成垄断。
其余也有很大的不屈安度,由于任何东西利用的越少,就没有办法去充分地测试,就越不屈安。
所谓「端到端」也常常成为一个噱头,本来该当是末了系统产品的一个体验,现在被当成一个方法论来辅导或者开展研发,特殊是在很多修行不深但又嗓门很大的从业者中盛行,负影响极大。

言归正传。
实在 leaderboard 的分是不是定得对,也是一个很大的问题。
到底我们怎么来评估结果的好坏?比如图像标注能达到百分之几,这本身故意义吗?自然图像里有各种各样的背景,人的 reasoning(推理)不但是基于我们看到的,也有很多背景,有很多其他东西。
我们可以在很凌乱的自然图像里作出判断,乃至不仅仅是大略判断,比如这个物体叫什么名字、存在与否,还可以做出感情判断,乃至讲出一些故事。
不是有些电影,便是根据一幅画直接衍生讲出来各种各样的有关故事吗?而机器学习做不到这些。
以是现在的评估 leaderboard 太高了往后,实在压制了这方面的创新。

我们在办理什么问题?这方面实在现在特殊局限,办理的问题很窄,便是监督学习和表征学习这两个例子。
更多的学习任务没有得到关注,由于刷不了榜,发不了文章或者发了文章也没人看,以是形成了比较不康健的风气。
尤其是年轻的学生,我看他们基本上对真正有寻衅的问题没什么兴趣,由于机会本钱太高,须要花很多韶光,静下心来、不被关注地去做好几年。
这些事情现在没有多少人乐意干。

机器之心:这些特殊难的问题,您能举几个例子吗,您认为非常有代价,但是非常可惜少有人去从事的?

邢波教授:很多。
如今在机器学习里面起了很大的发展浸染的,比如监督学习、无监督学习或者增强学习,乃至是对抗学习,它们的任务基本上便是数据导向学习(data-driven learning)。
Learning 都言过实在了,它实质上是 memorize,是影象。
影象往后产生下一个功用,比如 GPT-3 model 实在便是把全天下的数据全装在一个脑筋里面,然后它能够复制出来,或者可以 twist 一下复制出来。

比如说它可以产生一段莎士比亚的笔墨,它可以写出一篇文章,让你读着像莎士比亚,或者读着像其余一个作家,这是可以做到的。
让它产生一幅画,看着像梵高的作品。
这些东西基本上是基于影象的。
但你也看到有宣布了,有些人会问一些问题来 trick 故意捉弄这个模型,比如问它太阳有两只眼睛吗?斑马有没有六条腿?或者直接问加法,1+1=2 它可以做,2+2=4 它也可以做,然后一亿几几几小数点几几几加上几几几,它反而又不会做了。
由于它没见过这个例子,它不太会学规律。

刚才太阳和斑马的问题便是 common sense reasoning,知识性推理。
Common sense 便是在人的生存环境里边或者信息环境里面的一些背景知识,是我们通过很多其他方面得到的,要么是被奉告,要么是看已有的例子。
实在我们从来没看过太阳有没有两只眼睛,没见过这个例子。
但是我们可能是被奉告了,或者是自己读过一些东西,知道太阳不是动物。
总之便是拥有这样一些背景知识,让我们有能力做这样的推理。

这是机器学习做不到的。
而现在研究这方面的人很少,由于它不是基于大数据的演习,它不须要大数据,须要的是从建模到演习手段和演习评估,一套不同的方法和思路。
Judea Pearl 提出了更上一层的一系列问题,叫做 counterfactual,逆事实。

他举了这个故意思例子:如果奥斯瓦尔德不去刺杀肯尼迪总统,后者会不会还在世?这问题很故意思,我们不知道结果如何,但我们可以做出一套推理(reasoning)。
我们会说奥斯瓦尔德不去刺杀的话,现在这么多年过去了,肯尼迪总统自己可能也已经因年长而故去了,或者肯尼迪如此地遭人非议仇恨,大概奥斯瓦尔德不刺杀会是其余一个人去刺杀……会有各种各样版本的 story。
任何一个人,不须要是智者,都能够想出这些故事演绎。
但是 computer model 彷佛描述这些是有困难的,我现在还不知道有什么 model 可以这么讲解。

Counterfactual 的这种思考办法,是现在的机器学习模型做不到的,但人在日常生活和行动中,会非常自然地切换到不同的思维状态中,用不同的方法来做。
以是这个问题很有代价,而且很有寻衅。
它对付模型本身的表征手段,对付模型的构造、引入信息和规则的数学表示,对付末了的评估办法实在都有影响。

再轻微难一点,曾经有人哀求我开拓这样一个学习系统:读十本 PDF 格式的大学物理教科书,然后能不能通过大学量子物理考试?实际上,现在的那些超级模型是如此低能,乃至你给它同一个定理的几种不同表述,就像上面十本同一科目的教科书那样,它都无法搞清楚在讲的是同一个定理。
更不要说去创造和提出新定理,证明新定理了。

以是创新空间很大,但它还不是主流。
当然不是主流也是好事,会有更多的发展空间。
我只是举个例子,这是一个挺难的东西。

还有其余一个题目,比如 federated learning,协同学习。
它实在针对的也是一个很现实的问题:数据不能集中网络。
比如每个实验室或者每一个医院有自己的一套数据政策或运营政策,不能把病人的数据或者是生物实验、物理实验的数据送到一个中央来处理。

那怎么能够形成 knowledge,形成 one piece of knowledge 呢?这跟现在我们在机器学习里面所定义的协同学习还不太一样,现在只是在算法上的一个分布式,只是通过硬件分散。
但是刚才我讲的是一个更加深层的运行,它实际上是一个知识交流和末了统一的问题。

这是一种在人的思维过程中很常见的方法。
我们常常可以看到一个数学家证明某个定理时,他会采集很多这种分散的结果,然后做出一个综合,乃至还可以进行互换,然后再如是迭代。
有句俚语:To solve a problem it often takes a village。
Takes a village 什么意思?是大家在彼此互动中独立打造自我,但各自组建是不是向着一个共同目标?有时候是,有时候也不尽然。
但是有一些人就会用这种办法来获取分布式的部分的办理方案,然后来做综合,再做迭代。
这种学习办法也是现在机器学习领域尚未被深入理解的部分。

我的研究团队小组最近做了一个事情,至少在理论上建立了一个协同学习的优化算法,和原来我们在经典文献里面常用的一个叫做 expectation propagation 的算法,便是贝叶斯后验 inference 的一种打算手段,具有数学上的同等性。
它从纯算法问题换一个视角来看目前协同学习的方法是不是模型设计和演习问题,或者是一个别系兼容的问题,还是和一个算法优化增效问题。
这种题目我以为蛮故意思,我不能肯定它是不是最具寻衅或者最有代价的题目,但至少它是一个全新的题目,至今还没有得到很高的关注。

这些例子还可以有很多,比如前面提到的开拓黑箱优化的方法来实现自动的Learning to learn。
我只是想说我们现在做机器学习或者人工智能,花了很大的资源和力气来关注的问题,实在只是所有问题里面的一小部分,还有很多的问题没有得到类似的以及应有的关注。

机器之心:您曾经说过现在很多因此算法模型为中央,但很多情形下在现实生活中因此数据为中央的,要从数据的性子里面找到办理方案,这跟您刚才说的把数据留在本地,然后算法分布式处理属于同一范畴吗?

邢波教授:我知道你可能是指在打算层面上到底是数据向模型走(data goes to model),还是模型向数据走(model goes to data)。
现实上的考量是必须要有一个选项,模型得往数据走,由于如果数据不来怎么办?那是没办法的事情。
就像大家利用苹果手机,有些人关了 iCloud,就不把数据给上传,怎么办?如果它还想学的话,想给用户做个性化,必须要把它的模型放到用户那里。
我以为这是一个现实的哀求。

至于人工智能是不是要以数据为中央,这完备是另一个问题,这不是一个纯挚物理的(physical)中央的问题。
你这个问题实际上是方法论上的谁作为焦点、作为***来展开其他题目。

我倒不以为数据必须处在中央地位,由于从人的角度,我们的学习很多样,不见得非要通过例子。
大数据只是一种方法,乃至是一种笨办法,是非常适宜机器来做的。
但纵然是机器,也不见得一每天都要打主场,它还得适应客场的哀求。
它可能要进入到人的主场环境里面,来匹配人的需求。
那时候大概规则是更主要的,大概先验知识更主要的,或者大概某些分外的功能更主要。
比如说我希望来做一个很环保的办理方案,以至于不能用很多电,不能大量地利用冷却水,但还须要有结果。
那个时候就得捐躯数据上的这些东西,由于不能说我就做不明晰然后彻底放弃。

以是我以为定义单极的处理办法或风格,实在是不太康健或者是不太 productive 的方案。

三、看人工智能学科发展:定义一个学科的活力或代价,有时就看它是否产生了一种新的人才,开辟了新的研究方向

机器之心:我接下来问人工智能发展这一节。
您认为过去这几年,从 2012 年深度学习浪潮开始,或者从 2016 年 AlphaGo 进入公众年夜众视野,您截取一个韶光点,在这段韶光内您认为最主要的发展或者打破是什么?哪些事情能够称得上是有深度、有分量的?

邢波教授:你这个问题实在把我问住了,由于我以为回答这个挺难的。
首先我自己现在看的文章有限,我不能 claim 我读了所有的成果,以是我很难去做居高临下的总结,说谁的事情最主要,我以为有点搪突同事了,不应该来就此表态。
另一方面,这也是一个很主不雅观的判断。
纵然我把文章全看了往后,也很难做出一个很公正的评价。

我先把这个 context 讲了往后,可以提两句我个人以为有趣的事情,我不能说它是最主要的或者是最有代价的,但是我个人以为很有趣的,或者乐意花韶光进一步去理解的。

在过去的三五年里面,让我印象比较深的事情之一是最近 DeepMind 用深度学习的方法对蛋白质构造做预测的事情。
我以为它里边有多少个思想上的创新,不是技能上创新。

常日我们在做这种构造的预测,或者是在做各种预测的时候,都是用 connecting dots forward 的思路,便是往前推演,线性逻辑。
比如从因果来推,比如知道了原子身分和排序,蛋白序列,也知道每个原子蛋白序列的化学特性,能够用它来打算化学键,算最小能量,以此推算稳定构造,从一维序列,到二维构造,到三维构造,到四维构造组。
我们知道物理里面实际上便是用第一性的原则,first principle。
第一性,然后最小能量,然后算作稳定状态,然后蛋白构造,该当是这么一个东西。

据我理解,这份叫做 AlphaFold 的事情不是基于第一性原则弄出来的。
它是用了间接的、有点舍近求远,是一个非常间接的 solution。
它是先网络了所有的匹配,便是说每个原子和分子对之间的间隔,这是可以通过 X 光,核磁共振,通过各种各样的物理化学实验做到的,它先就网络了这么一个数据库。

这实际上就供应了分子(本来是一维序列)的所有二度关联信息,即点到点之间的物理间隔。
它同时又网络了大量已知的蛋白质三维构造,然后用深度学习来做这两者的 input/output 的 blackbox mapping。

首先做了从一维序列到二维 pairwise distance matrix 的模型。
Pairwise distance matrix 的好处是得到了对蛋白的二维全局不雅观,由于把所有的 n×n 的 pairwise distance 展现在一张图上,就像我们常日的二维图像一样。
然后它再通过 pairwise distance 对这个全体蛋白的构造做了黑匣子式的预测,也是通过监督式深度学习。

它的思路绕过了第一性原则——通过算最小能量值,或者是通过物理打算,通过仿照来产生最佳的解。
AlphaFold 是直接通过全局的,通过由于构造而产生的 pairwise distance function 来做反推,反推什么样的构造才能够产生这样的 distance function。
这个方法很有趣。
有点像我们去旅游的时候,不知道自己的下一步目标,但是由于我知道到了下一步目标往后的再下一步目标,然后我来反推下一个目标在哪,是这么一个思路。

这里面充分运用了深度学习的长处,深度学习对大数据到大数据的 mapping 的学习能力很强,能够看到人看不到的一些 insights。
从 a 到 b 这一步,机器虽然不长于学,但是从 a 到 c 反而是它能够学到的。
人是不太随意马虎学到 a 到 c 的,但是机器学习很随意马虎学到这一部分。
然后再从 c 回到 b,这也是机器学习能学的。
以是它把 a 到 b 这一步整体 pass 过去了。

我以为这个思路非常故意思,为什么?由于从 a 到 b 是第一性,是局部的打算,必须得通过紧邻的原子分子的相互浸染一步步来 threading,就像一根线怎么逐步地给它折叠起来,它是一步一步折叠的。
但到了 c 的时候,它已经变成了 pairwise distance function,有全局的 information。
在预测每一个三维构造的时候,它实际上是通过全体的二维 pairwise distance 来做预测。
从全局到局部的预测,通过深度学习的方法来实现。

这个思维方法特殊奇特,我乃至以为有可能得到诺贝尔奖,通过机器的方法实现了对数据的全局不雅观,然后通过全局再来预测局部这样一个构造。
在人的打算过程中,我们很难做全局的预测,由于它的打算量太大了,做不到这一点。
我不知道有没有讲清楚,但我以为它的思路本身是有一定的打破性。

机器之心:可不可以类比 AlphaGo 下棋,论文里面说 AlphaGo 自己跟自己对弈,产生了一些新的定式。
这些定式是人类此前没有想到的,而且个中一些比人类之前发明的还要好。
可以这么类比吗?

邢波教授:这个不太一样。
AlphaGo 也是一个创新,但是我以为更多地利用了算力,大量的算力和不断的仿照。
刚才蛋白质构造预测的研究实在并没有用太多的算力,它实际上是表示出来一种新的思维办法状态。

AlphaFold 是通过从局部一步跨到全局,然后再跨回局部的预测。
这不是人的惯常思维办法。

机器之心:它确实知道了所有的构造,所有的间隔,然后自己再倒回来推,这可以理解为一种大数据暴力吗?

邢波教授:我不这么理解,由于数据并不大。
它实际上是数据的形式,数据的视角非常有趣。
它利用深度学习模型给人供应了一个新的视角,来看后构造的结果,然后从后构造的结果来推测到构造,跳了一步棋,然后再往回看。
这是我的理解,这个思路我原来没有想过。

机器之心:您认为这是模型的力量,还是设计模型的人的理解?

邢波教授:是人的理解。
我以为这里面有很大的人的设计成分,这个设计非常有趣。
以是我认为它是一个打破,由于个中人做的事情很大,里面显然有相称原创性、聪明的一套思维方法,设计出这么一个 pipeline,而不但是暴力地去拼武器竞赛。

机器之心:那 GPT-3 呢?

邢波教授:我以为 GPT-3 也算是一种创新,但是对它的打破性没有特殊 impressed。
它前面有好几个步骤,是一个渐进的东西。
我想最近几年里深度学习领域比较紧张的事情便是所谓的 attention model。
由于它对不同表征(representation)能够做 alignment,能够产生对应性。

基于 attention model 又发展到 transformer,transformer 便是一堆attention models,我们称作 attention heads,然后形成一个列,这样能够使关注性支配到一个繁芜的观点,或者是一个比较大的区域。
GPT-3 大量地采取了这样的设计,有点像采取了很大量的影象元来组成一个超级凑集,但是影象元已经被发明,影象元的连接也是在小型里面实现了的,GPT-3 把它做得更大,这是我的理解。

当然做大了往后,它在工程上能不能演习,演习里面对数据的利用怎么来设计 batch,怎么让它收敛。
这些东西都是技能上一些比较主要的事情。
但是我没有看到它是彻底原创性的事情。
全体 GPT-2、BERT、GPT-3 是随着硬件的发展,随着数据的增加,有一个很明显的渐进的路线,以是我不能把它归类成突变或者打破。

基本上我可以预测 GPT-4 在两年往后就会涌现,大概更快,这是我对它的定义。
它还用了一个 idea,很主要的 idea,汲取了很多古人的履历,叫做 self-supervised training(自监督演习)。
在措辞里面自监督演习这些技能和观点是很多人不断地构建出来的,比如我能够把词抠掉之后预测这个词,把句子折叠一下用后半句来预测前半句或者反过来,或者是用一些 combinations,这些手段都大量地用在了演习这些 GPT 或者 language model 里面。

以是我以为 GPT-3 是一个集大成者,但是并没有形成事理或设计或算法上的巨大的原创性的打破。

机器之心:在评价研究好坏的时候,相较于工程实现,您更看重原创性的思路或者是思考办法。
我可以这么理解吗?

邢波教授:未必。
我并没有判断谁好谁坏,该当和不应该。
它们是不同的,按照不同的须要来做的。
原创本身也不是为了原创,都是须要所致。
在这项事情里面,它做了该当做的须要做的东西,以是我以为 GPT-3 还是一个很了不起的工程里程碑。
它得到的这些关注度我以为没有问题,该当是挺实至名归的很好的事情。
我只是说我不能把它叫成原创。
「原创」在我的定义中是一个中性词,不是一个褒义词,也不是个贬义词,它只是对这个事情的定性而已。

我还想补充一个事情,这样可以把最近的成果做一个更好地覆盖。
我以为有一个方向值得关注——system and machine learning。
我以为它有可能是这几年深度学习和机器学习运动里,另一个比较主要的新的打破点。
它的打破点不是表示在某一项成果里面,而是说这个领域被出身出来,产生了一个新的领域。

SysML 实际上是把原来操作系统这个领域和机器学习结合起来。
我个人认为这是一个很主要的新打破,由于原来打算机科学家是有明确分工的,做算法的人或者建模的人是不去碰机器的,不去问机器里面的卡怎么来插,或者带宽如何来掌握,通讯如何来掌握,程序如何编译,这些都不理会。
就像我们在做 computer vision 的时候,我们对照相机或者像素编码方法,比如对付 JEPG take for granted。
有时我跟人说 Computer Vision 全体领域实在是定义在我们对付影像的编码上面,我把编码变的话,也有可能会导致全领域接着改变。
由于人类视网膜看到的图大概和机器看到的图不一样。

一贯以来机器学习是有它的边界的,边界就定义在数据和数学上,但是没有达到硬件和打算环境里面。
但是,SysML 第一次把边界给冲破了,它使系统和机器学习结合在一起,当成一个题目来做。
这有打破性的意义,有点像把火车的设计和铁轨的设计结合在一起,而不是两边分别各做各的。

这里边就问出了很多新的问题。
一开始的时候因此为系统达不到演习的哀求,要重新设计系统,以是涌现了像参数做事器这样的事情。
我以前的事情也组成了 SysML 领域早期成果的一部分,包括参数做事器的架构、理论和原型系统,特殊是我们第一次对付不同通讯原则作出了严格的理论剖析,提出了数据并行和模型并行两种范式,给出有限异步通讯在这两种范式上的收敛性的理论证明,以及建造实际系统上的可扩展性。
2012 年、2013 年的时候出了一批理论、工程和系统上的新打破,那时候的目标是希望能够设计出新的通用系统,能够适应机器学习的须要。

再过了几年往后就发觉新的系统太局限,机器学习算法发展得太快,跟不上,甚至出来了专门为特定算法或模型来做事的系统。
然后便是在这个根本上既优化系统,又优化算法,互为优化,这是第二个波——codesign。
也持续有多少个 paper 是做这种 codesign。
我们组 Pengtao Xie 博士的 Orpheus paper 便是个中的例子,提出了 sufficient factor broadcast 这个观点。

到了最近几年创造这条路可能也很难走,由于 codesign 太昂贵太小众,要既懂系统,也懂算法,还懂数学,这样的人太少了,能玩这个东西的人特殊有限,以是做不大。

末了再回归,还是来做通用系统。
但这个通用系统不是单一系统,还有可能是一个别系库。
比如说我把所有系统都放在库里边,然后根据不同的算法或者模型须要来选择不同的通信协议,比如可以做 parameter server,也可以做 allreduce,也可以做 sufficient factor broadcast。
然后在通讯里面可以是同步,也可以是异步,也可以是半同步,可以供应这么一个选项。
这个别系全面丰富,也容许以知足各种须要,这是最近的方向之一。
我们组 Hao Zhang 博士的 AutoSync 系统就属于个中之一。

然后可能又有一个新的问题:能不能形成自适应系统?由于虽然库都放在那里了,但是选择用哪个,用多少,用多久,还是须要很多专业知识。
能不能让系统本身是智能的,即是是用智能的系统来演习智能的模型,两边都来智能。
它可以自己来调节须要,包括在 schedule 里边,包括在通讯里面,都可以来做 adaptive 的操作。
这也是最近的一个新的方向。
我们组 Aurick Qiao 博士最近在 OSDI 得到最佳论文奖的 AdaptDL 系统就属于这个方面的一个突出成果。

更新的方向还有多维的并行。
我们也可以把并行进行拓宽,从数据并行到模型并行到 pipeline 并行都可以来同时做,现在可能叫「三维并行」,也是个时髦盛行叫法。

SysML 这个方向孕育出很多新的问题和新亮点,都是原来没有被碰过的。
以是从技能角度,还有从工程角度,至少是创造了很多岗位可以去干活。
但是从学科、从理论本身实在也提出很多问题,由于每一步这样的工程创新都对原来的数学模型是一个 reduction,都是一个减少,是凿了一个窟窿,使之前的模型不再精确完备。
然后我们就要证明它是不是有数学上的精确性,提出了这种理论上的问题。
这个方向末了能通到哪去,还很难预测,但我以为它是一个相称丰富的方向,可以引发出来很多新的题目。

作为一个新学科来说,SysML 是过去几年蛮主要的一个新生事物。
原来没有被这么关注,现在有一批年轻的学者开始崭露锋芒,文武兼备,他们既会算法也会系统。
这批新的人才的产生便是这股发展潮流的结果。
这是我原来没有见过的。

机器之心:做框架的或者做编译器的,算属于这一批人吗?

邢波教授:广义上也可以算。
实在这个群体里边包含了各种各样的人,有出身框架(architecture)的人,但他们的做事目的是为了 AI,他们就进入这个圈了。
框架可以做事于数据库,也可以做事于存储,或者 cryptography 来做隐私,这也是系统里边的须要。
也包括了做编译器的人,由于机器学习代码的编译质量,实际上也影响了它的人工编码本钱和程序的 performance。
还包含了做算法的人,如果他很有兴趣去研究系统或者是 infrastructure 对 performance 的影响的话,他们也包含在个中。

其余有一批乃至是更稀缺的,对这几个领域都懂跨界人才。
例如最近 CMU 大力延揽的陈天奇博士便是在系统和 AI 上都有相称好的成果的年轻学者。
这样的人现在出来了一批,比如刚才提到的 Aurick Qiao 博士,Hao Zhang 博士,以及更早一些的 Matei Zaharia 教授,Qirong Ho 博士,Mu Li 博士都是个中突出的代表。

我常日定义一个学科的活力或者是代价,有时就看它是否产生了一种新的人才,提出了新的问题,我以为 SysML 是有这样的特质的。

这里我要提一下,我们的公司 Petuum 便是在这个业态变革中发展起来的。
它一开始基于我们在参数做事器上的创新,后来我们一贯在这里边加入了不同的元素,包含了比如说自动调参,机器学习建模这种乐高一样的组合性,自适应底层架构等等。
我以为在这个赛道里面,会孕育出来下一代真正的新型创新公司。
很高兴地看到,刚才提到的 SysML 领域最近呈现的新锐之一,Aurick Qiao 博士能秉承持续创新,并担当起落地发展的重任,已经发展为 Petuum 新一代 CEO。
作为他的博士导师,我深感骄傲。

编者按:在本次采访的后半部分,邢波教授将分享他作为 MBZUAI 创始校长,对学术管理及领导力,对研究品味,以及对探索创造新的、更加符合当前时期的 AI 科研和教诲环境的思考。
文章将于近期发布,敬请关注。

同时,邢波教授特殊留言:

作为学物理出身的打算机学家,我对付杨振宁师长西席提出的杨-米尔斯规范场和物理标准模型一贯怀有深深的敬意,而在这次访谈中提到的我们的机器学习标准方程(standard equation)的事情,也是完备受到杨师长西席对付数学简洁深刻之美的推崇的勉励。

这次访谈的揭橥正值杨师长西席百岁生日,我仅以这个还非常粗浅的考试测验性事情和干系的妄论向杨师长西席致敬,也希望他的科学精神能在子弟中连续发扬光大。