但是,演习这样一个深度学习系统将带来相称于纽约市一个月的二氧化碳排放。

人工智能成长前途的困境_深度_成本 绘影字幕

2016年,“阿尔法狗(AlphaGo)”与李世石的围棋对决,让人工智能和深度学习进入了大众的视野。
在那场人机大战中,阿尔法狗以总分4比1得胜。
不仅围棋,深度学习近些年迅猛发展,在措辞、医疗等多个领域展现出了强大的能力。
然而这统统是有代价的,为了降落缺点率,深度学习在完成任务时须要越来越大的打算量,由此产生的经济本钱、耗费的电量、对环境的污染,将超出人类社会的承受能力。
人工智能遍及的那一天,或许也将是人类能源被打算机花费殆尽的那一天?

当下风头正劲的深度学习领域,起源于真空管打算机的时期。
1958年,康奈尔大学的弗兰克·罗森布拉特受大脑神经元的启示,设计了第一个人工神经网络,之后被命名为“深度学习”。
罗森布拉特知道,这项技能超越了当时的打算能力,他惋惜地表示:“随着神经网络连接节点的增加……传统的数字打算机很快就会无法承担打算量的负荷。

幸运的是,打算机硬件在几十年间快速升级,使打算速率提高了大约1000万倍。
因此,21世纪的研究职员得以实现具有更多连接的神经网络,用来仿照更繁芜的征象。
如今深度学习已经广泛遍及,被运用于下围棋、翻译、预测蛋白质折叠、剖析医学影像等多个领域。

深度学习的崛起势如破竹,但它的未来很可能是坎坷的。
罗森布拉特所担忧的打算量的限定,仍旧是笼罩在深度学习领域之上的一片阴云。
如今,深度学习领域的研究职员正在逼近打算工具的极限。

深度学习的事情事理

深度学习是人工智能领域长期发展的成果。
早期的人工智能系统基于逻辑和人类专家给定的规则,之后逐渐引入了可以通过学习来调节的参数。
而今,神经网络可以通过学习,构建可塑性很强的打算机模型。
神经网络的输出不再是单一公式的结果,而是采取了极其繁芜的运算。
足够大的神经网络模型可以适应任何类型的数据

为了理解“专家系统(expertsystem approach)”和“灵巧系统(flexible-system approach)”的差异,我们考虑这样一个场景:通过X光片段定病人是否患有癌症。
我们假设X光片中有100个特色(变量),但我们不知道哪些特色是主要的。

专家系统办理问题的方法,是让放射学和肿瘤学领域的专家指定主要的变量,并许可系统只检讨这些变量。
这一方法须要的打算量小,因此曾被广泛采取。
但如果专家没能指出关键的变量,系统的学习能力就不如人意。

而灵巧系统办理问题的方法,是检讨尽可能多的变量,并由系统自行判断哪些主要。
这须要更多的数据和更高的打算本钱,比较专家系统效率更低。
但是,只要有足够的数据和打算量,灵巧系统可以比专家系统表现更优。

深度学习模型是过参数化的(overparameterized),即参数比可供演习的数据点多。
比如图像识别系统Noisy Student的神经网络拥有4.8亿个参数,但它在演习时只利用了120万个标记的图像。
过参数化常日会导致过拟合(overfitting),也便是模型与演习的数据集拟合度过高,以至于没有把握一样平常趋势,却学习了演习集的分外性。
深度学习通过随机初始化参数、“随机梯度低落(stochastic gradient descent)”等方法,反复调度参数集,以避免过拟合的问题。

深度学习已经在机器翻译领域大显技艺。
早期,翻译软件根据语法专家制订的规则进行翻译。
在翻译乌尔都语、阿拉伯语、马来语等措辞时,基于规则的方法起初优于基于统计学的深度学习方法。
但是随着文本数据的增加,深度学习全面超越了其他方法。
事实证明,深度学习在险些所有运用领域都具有优胜性。

巨大的打算本钱

一个适用于所有统计学模型的规则是:要想使性能提高k 倍,至少须要k2 倍的数据来演习模型。
又由于深度学习模型的过参数化,使性能提高k倍将须要至少k4 倍的打算量。
指数中的“4”意味着,增加1 万倍打算量最多能带来10 倍的改进。

显然,为了提高深度学习模型的性能,科学家须要构建更会变得多昂贵呢?是否会高到我们无法包袱,并因此阻碍该领域的发展?

为了探究这一问题,麻省理工学院的科学深度学习正面临严厉的寻衅。
“如果不能在不增加打算包袱的条件下提高性能,打算量的限定就会使深度学习领域结束不前。

以图像分类为例。
减少图像分类缺点伴随着巨大的打算包袱。
例如,2012 年AlexNet 模型首次展示了在图形处理器(GPU)上演习深度学习系统的能力,该模型利用两个GPU 进行了5~6 天的演习。
到2018 年, 另一个模型NASNet-A 的缺点率降落到了AlexNet 的一半,但它利用的打算量是AlexNet 的1000 多倍。

芯片性能的提升是否跟上了深度学习的发展?回答是:并没有。
在NASNet-A 增加的1000 多倍的打算量中,只有6 倍的提升来自于更好的硬件,别的都是通过利用更多的处理器或运行更永劫光达到的,伴随着更高的本钱。

理论见告我们,提高k 倍的性能须要增加k4 倍的打算量,但在实践中,增加的打算量至少是k4 倍。
这意味着,要想将缺点率减半,须要500 倍以上的打算资源,本钱高昂。
不过,实际情形与理论预测的差距,也意味着可能存在改进算法的空间,有机会提高深度学习的效率。

根据研究职员估计的图像识别领域“打算本钱—性能”曲线,将缺点率降到5%,须要进行1028次浮点运算。
另一项来自马萨诸塞大学阿默斯特分校的研究显示了打算包袱隐含的巨大经济和环境本钱:演习一个缺点率小于5%的图像识别模型,将花费1000亿美元,其花费的电能产生碳排放与纽约市一个月的碳排放量相称。
而想要演习缺点率小于1%的图像识别模型,本钱就更是天价。

打算本钱的重负在深度学习的前沿已经变得显而易见。
机器学习智库OpenAI斥资400多万美元,设计并演习了深度学习措辞系统GPT-3。
只管研究职员在操作中犯了一个缺点,但他们并没有修复它,仅仅在论文附录中简要阐明道:“由于高昂的演习的本钱,对模型重新演习是不现实的。

企业也开始回避深度学习的打算本钱。
欧洲的一家大型连锁超市最近放弃了一项基于深度学习预测哪些产品将被购买的系统。
该公司的高管判断,演习和运行该系统的本钱过高。

深度学习路在何方

面对不断上升的经济和环境本钱,深度学习领域急迫地须要在打算量可控的条件下,提高性能的方法。
研究职员为此进行了大量研究。

一种策略是,利用为深度学习专门设计的处理器。
在过去十年中,CPU让位给了GPU、现场可编程门阵 列(field-programmable gate arrays)和运用于特定程序的集成电路(application-specific ICs)。
这些方法提高了专业化的效率,但捐躯了通用性,面临收益递减。
长远看来,我们可能须要全新的硬件框架。

另一种减少打算包袱的策略是,利用更小的神经网络。
这种策略降落了每次的利用本钱,但常日会增加演习本钱。
二者如何权衡取决于详细情形。
比如广泛运用的模型应该优先考虑巨大的利用本钱,而须要不断演习的模型应该优先考虑演习本钱。

元学习(meta-learning)有望降落深度学习演习本钱。
其理念是,让一个别系的学习成果运用于多个领域。
例如,与其分别建立识别狗、猫和汽车的系统,不如演习一个识别系统并多次利用。
但是研究创造,一旦原始数据与实际运用处景有眇小的差异,元学习系统的性能就会严重降落。
因此,全面的元学习系统可能须要巨大的数据量支撑。

一些尚未创造或被低估的机器学习类型也可能降落打算量。
比如基于专家见地的机器学习系统更为高效,但如果专家不能辨别所有的影响成分,这样的系统就无法与深度学习系统相媲美。
仍在发展的神经符号(Neurosymbolic methods)等技能,有望将人类专家的知识和神经网络的推理能力更好地结合。

正如罗森布拉特在神经网络出身之初所感想熏染到的困境,本日的深度学习研究者也开始面临打算工具的限定。
在经济和环境的双重压力下,如果我们不能改变深度学习的办法,就必须面对这个领域进展缓慢的未来。
我们期待一场算法或硬件的打破,让灵巧而强大的深度学习模型能连续发展,并为我们所用。