撰文 | Charmaine Lai, Subutai Ahmad, Donna Dubinsky & Christy Maver

人工智能环保吗?_模子_稀少 科技快讯

译者 | lemon

审校 | P

在过去十年,人工智能(特殊是深度学习)取得了显著成效。
当Siri读懂你说的话、脸书认出了你的表亲、谷歌舆图为你重新方案路线时,都大概率涉及到了深度学习系统。

鲜为人知的是,这些模型正花费着惊人的本钱,不仅表示在真金白银上,也表示在能源花费上。
照目前的迹象来看,人工智能只会给景象危急火上浇油。
可比较之下,我们的大脑(功耗小于40瓦)可就高效多了。
如果我们把基于神经科学的技能运用到人工智能中,那么用于打算的能耗将有可能大大降落,从而减少温室气体排放。
这篇博文旨在阐明到底是什么导致了人工智能过大的能源花费,以及如何用基于大脑(事情事理)的技能办理这种过高的能源本钱问题。

为什么人工智能如此耗能?

科学管理沙尘暴

首先,我们有必要大略理解一下深度学习模型的事情事理。
深度学习模型的“智能”之处和你的大脑并不一样。
它们不以构造化的办法学习信息。
与你不同,它们不懂什么是因果关系、高下文或类比。
深度学习模型是用“蛮力”的统计技能。

例如,你假如想演习一个深度学习模型来辨认一张猫的照片,你须要向它展示上千张由人类标记过的猫的图像。
该模型并不知道猫比狗更有可能爬树、玩羽毛。
因此除非我们拿包含树和羽毛的猫的图像来演习它,否则它不会知道这些物体的存在可以帮助对猫的识别。
而为了做出这些推断,我们须要用所有可能的物体组合图片对模型进行“蛮力”演习。

译者注

构造化:作者此处想表达的大概是深度学习模型不像人一样建立各种观点,而且知道这些观点之间的关系(因果关系、先后关系、相似/相邻关系)。
但深度学习模型确实因此构造化的办法来学习信息的——模型在加入归纳偏置后具有某种等变特性,能够处理特定构造的数据(图像、韶光序列、图构造的数据等)。
因此此处表述不准确。

因果关系:诚如作者所言,机器学习模型一贯为人诟病之处便是其仅习得关联,而非因果。
但近期有研究已经开始探索彷佛在大措辞模型中呈现的因果关系,如Can Large Language Models Distinguish Cause from Effect?等。
亦有相称多研究者开始关注因果表示学习这一新兴领域。

高下文:事实上,高下文学习对自GPT3之后的大措辞模型来说并不是什么难事,并出身了in-context learning这样一个专门研究这一能力的子领域。
近期包括Can language models learn from explanations in context?,Emergent Abilities of Large Language Models,What learning algorithm is in-context learning? Investigations with linear models在内的多项研究进一步探索了其机制。

类比:近期已有研究表明,类比推理能力在大措辞模型中呈现,如Emergent Analogical Reasoning in Large Language Models所述。

深度学习模型是用“蛮力”的统计技能:原文如此,不一定精确。

该模型并不知道猫比狗更有可能爬树、玩羽毛:值得把稳的是,作者此处所描述的深度学习系统更多聚焦于单任务系统。
但事实上,早在几年前,多任务学习(multitask learning)便已经成为十分盛行的范式,并且目前最引人瞩目的一些深度学习系统更开始强调一个模型适用于多种任务,如DeepMind的Gato,Google的PaLM等。

- Blaster Studio -

这些利用“蛮力”的统计模型所产生的巨大能源需求是由于以下几个特点:

• 须要成百万上千万的演习样本。
在猫的例子中,演习好一个模型须要正面、背面、侧面、不同品种、不同颜色、不同阴影以及不同姿势的猫的图片。
一只猫的形态有无数种可能性,因此为了成功识别一只猫,模型必须在浩瀚版本的猫(的图片)上进行演习。

• 须要很多的演习周期。
从缺点中学习是演习模型这一过程中的一部分。
如果模型缺点地把猫标记为浣熊,该模型须要重新调度它的参数以将图像分类为猫,再重新进行演习。
它从一次次缺点中逐步学习,这也须要一遍遍的演习。

• 当碰着新的信息时得从头演习。
如果这个模型现在要去识别它从未见过的卡通猫,我们得将蓝色卡通猫和赤色卡通猫添加到演习集中,从头对它进行演习。
该模型无法循规蹈矩地学习。

• 须要很多的权重和乘法。
一个范例的神经网络包含很多由矩阵表示的连接或权重,个中一个或多个矩阵构成一层。
为了打算一个输出,神经网络的后续层须要实行大量的矩阵乘法,直至末了得到一个结果。
事实上,打算单个层的输出就须要数百万次浮点运算,而一个范例的神经网络可能包含数十到数百层,这使得其打算极其耗能。

译者注

猫:原文为浣熊,此处应指猫。

该模型无法循规蹈矩地学习:原文如此。
但这一说法并不准确,机器学习中的增量式学习(incremental learning)或与其高度干系的在线/持续学习(online/continual learning)的目标便是循规蹈矩地学习,并期望终极能够建模从未见过的数据(分布外泛化),乃至识别从未见过的物体(零样本推断)。

人工智能会花费多少能源?

一篇来自麻萨诸塞大学阿默斯特分校的论文称,“演习一个人工智能模型可以产生的碳排放量,相称于五辆轿车在全体利用期中的排放量。
”然而,这项剖析仅仅只针对一次演习而已。
当模型经由反复演习而改进时,其能耗会激增。
许多大公司每天都在演习成千上万个这样的模型,它们对此问题都十分重视。
Meta便是这样一个公司,其最近揭橥的论文探索了人工智能对环境的影响、研究理解决问题的方法、并呼吁有所行动。

当前最新的措辞模型包含了数以亿计乃至万亿计的权重。
个中一个盛行的模型GPT-3就有1750亿个机器学习参数。
该模型在NVIDIA V100 GPU上演习,虽然研究职员尚未表露该模型的能源利用情形,但通过研究职员的打算,如果利用A100系统则需利用1024个GPU、耗时34天、花费460万美元来演习此模型,也便是936兆瓦时。
此外,谷歌AI刚刚公布了具有5400亿个参数的模型PaLM(Pathways Language Model)。
随着模型变得越来越大以应对愈加繁芜的任务,它们对做事器的需求呈指数增长。

在深度学习的时期,用于演习人工智能系统的算力呈指数增长丨https://www.economist.com/technology-quarterly/2020/06/11/the-cost-of-training-machines-is-becoming-a-problem

自2012年以来,演习这些人工智能系统所需的打算资源每3.4个月就会翻一番。
一位商业互助伙伴见告我们,他们的深度学习模型足以为整座城市供电。
这种能源利用的上升与许多组织声称在未来十年内实现“碳中和”的目标背道而驰。

我们该如何减少人工智能的碳足印?

为理解决这个具有寻衅性的问题,我们的建议是:向大脑学习。
人脑是一个真正的智能系统最好的例子,然而它只花费很少的能量(基本上与点亮一盏灯泡的能量相同)。
与深度学习的低效率比较,人脑的效率极其显著。

那么人脑是如何高效运作的呢?我们根植于神经科学的研究指出了一条让人工智能更加高效的路线。
以下是大脑在不过多利用能量的情形下却能出色地处理数据的背后的几个缘故原由:

1 / 稀疏性

大脑中的信息编码是非常稀疏的,这就像在一长串紧张为零的字符串中零散掺杂着一些非零值。
这与打算机的表示方法不同,后者常日是密集的。
由于稀疏表征有很多零元素,因此它们在和其他数字相乘时可以被消散落而只剩下非零值。
而大脑中的表征非常稀疏,个中多达98%的数字都是零。

如果我们可以通过具有类似稀疏度的人工智能系统表示信息,那么就可以肃清大量的打算。
我们已经证明,在深度学习的推断任务(inference tasks,例如在视觉系统中识别猫)中利用稀疏表征可以将功率性能在不丢失任何准确度的条件下提高到三至一百倍以上(详细取决于网络、硬件平台和数据类型)。

深入理解:将稀疏性运用于机器学习

将大脑的稀疏性转移到深度神经网络(DNN)有两个关键点:激活稀疏性(activation sparsity)和权重稀疏性(weight sparsity)。
稀疏网络可以限定其神经元的活动(激活稀疏性)和连接(权重稀疏性),从而显著降落模型的大小和打算繁芜度。

当神经网络中的权重和激活函数都很稀疏时,我们只须要打算包含非零元素的乘积,从而肃清绝大部分相乘丨https://arxiv.org/abs/2112.13896

2 / 构造化数据

你的大脑通过感官信息流和不断移动来对这个天下进行建模。
这些模型具有三维构造,以是你的大脑能理解猫的左视图和右视图,而不必单独去学习它们。
这些模型基于我们所谓的“参照系”,它让学习变得构造化,使我们能够建立包含各种工具之间关系的模型。

我们可以纳入猫和大树、羽毛都有关联的观点,而不必去看数百万只猫与大树的实例。
与深度学习比较,利用参照系构建模型所需的样本要少得多。
只需猫的几个视图,模型就能通过变换数据来理解猫的其他视图,而无需专门针对这些视图进行演习。
这种方法可以将演习集减小好几个数量级。

深入理解:通过参照系来构造化学习

参照系就像舆图上的网格或坐标轴。
你所知的每一个事实都与参照系中的某个位置逐一配对,你的大脑则在参照系中不断移动来回忆储存在不同位置的事实。
这使你能够在脑海中移动、旋转和改变事物。
你可以在参照系里根据蓝色和现实中猫的样子来想象一只蓝色卡通猫长什么样,而不须要看一百张从各个角度拍的蓝色卡通猫图片。

参照系表示你的身体相对付环境的位置,以及事物之间相对的位置丨https://www.youtube.com/watch?v=LaAYuygr7_8&ab_channel=Numenta

3 / 持续学习

你的大脑在学习新事物的同时不会忘怀之前所学的东西。
当你首次见到一种动物时(比方说土狼),你的大脑不须要重新学习统统关于哺乳动物的知识。
大脑把一个针对土狼的参照系添加到影象中,然后标注其与其他参照系(例如狗)的异同,并共享那些相通的子构造(例如尾巴和耳朵)。
这种递增式的学习只须要很少的能量。

深入理解:用生动树突(active dendrites)来进行多任务和持续学习

生物神经元有两种树突:远端(distal)和近端(proximal)。
如今我们所见的人工神经元只仿照了近真个树突。
我们已经证明,通过把远端树突合并到神经元模型,神经网络可以在不忘怀旧知识的条件下学习新知识,从而避免重新学习的须要。

比较一个范例深度学习网络中的点神经元(左)、一个大脑皮层中的锥体神经元(pyramidal neuron)(中)、一个结合了锥体神经元特性的生动树突(右)丨https://www.frontiersin.org/articles/10.3389/fnbot.2022.846219/full

4 / 优化的硬件

如今的半导体架构都是为深度学习优化的,这个中,神经网络密集而不具备构造化学习的能力。
但我们如果想创造更可持续的人工智能,就须要让硬件也能包含上述三个属性:稀疏性、参照系和持续学习。
我们已经创造了一些支持稀疏性的技能。
这些技能将稀疏表示映射到密集的打算环境中,从而提高推断和演习性能。
长远来看,我们不难想象这些基于大脑原则优化的架构将有潜力供应更多的性能提升。

译者注

原文如此,不代表精确。

深入理解:互补稀疏性

在2021年,我们引入了互补稀疏性。
这是一种利用稀疏权重和稀疏激活函数来提升性能的技能,从而实现更节能的硬件。
我们最近用互补稀疏性在FPGA上运行推断任务,并在吞吐量和能源效率上取得了近百倍的进步。

用80%的互补稀疏度将五个稀疏矩阵(具有稀疏权重)打包成一个“密集”的矩阵,并且将其与稀疏激活函数结合起来进行处理丨https://arxiv.org/abs/2112.13896

迈向更可持续的未来

连续构建更大型、打算量更密集的深度学习网络不是通向创造智能机器的可持续路子。
Numenta(原作者)认同的是通过一种基于大脑的方法来构建高效且可持续的人工智能。
我们必须开拓更聪明的、而不是事情更勤快的人工智能。

更少的打算量、更少的演习样本、更少的演习次数与优化的硬件相结合,可以显著改进能源利用。
如果我们的打算量减少十倍、演习样本减少十倍、演习次数减少十倍、硬件效率提高十倍,那么系统的整体效率将提高一万倍。

短期内,Numenta希望能大幅降落推断(inference)中的能耗。
Numenta的中期目标是将这些技能运用到演习中,并随着演习次数的减少,估量可以节省更多的能源。
从长远来看,随着硬件的逐渐增强,Numenta看到了将性能改进上千倍的潜力。

从大脑中提取抽象的事理然后运用到如今的深度学习架构中会把我们推向可持续的人工智能。
如果读者想详细理解Numenta在创建节能的人工智能方面的事情,请查看原文以理解更多。

后记

lemon:最开始知道Numenta这家公司是由于读了Jeff Hawkins的On Intelligence,这本书描述了一种刀切斧砍的靠近“强人工智能”的办法——仿照人类的大脑皮层。
Numenta的出发点是:既然智能可以从人类的大脑皮层中产生,那么仿照大脑皮层的算法也将得到智能。
我深深地被这个想法吸引。
仿照大脑皮层vs人工神经网络,到底谁更胜一筹呢?我十分期待答案揭晓的那天。

P:读原文时,我的第一觉得便是文章本身带有很强的主不雅观色彩,尤其是在试图证明AI只是“用蛮力的统计技能”时,有相称多刻意且过期的不雅观点。
诚然,大模型的演习开销和碳排放巨大,比如原文提到的,GPT-3的演习碳排放相称于五辆小汽车的终生排放。
但是,我们也必须承认从大模型中呈现出来的惊人能力。
只管这篇文章写于去年五月,当时当然还没有ChatGPT,但已经有不少研究创造了在大措辞模型中呈现的多种能力,比如我们注释的推理和类比等等。
不过,我个人也十分认同Bengio、Botvinick、LeCun等学者去年提出的NeuroAI的核心不雅观点,即从硬件和软件层面向人脑的架构学习,进一步推进AI的发展。
总而言之,我们希望读者理解当前已经取得的进展,以及在把AI的边界连续向前推进时所能得到的潜在收益。

Sixin:这是一家旨在将神经科学事理融入人工智能产品的公司。
为了宣扬自己,开头部分可能会涌现一些稻草人谬误,浮夸了深度学习的一些问题。
正如译者与校审者在注释中所补充的,随着研究者们不懈努力,这些问题实在已经部分乃至全部得到理解决,读者可以按图索骥。
不过,本文所提出的参考人脑“稀疏性、构造化、学习持续性”三种特点来降落人工智能产品能耗的想法还是很有启示性的,读者可以去粗取精。

本文经授权转载自微信"大众年夜众号“神经现实”,编辑:Sixin、M.W.。

原文:https://www.numenta.com/blog/2022/05/24/ai-is-harming-our-planet/

特 别 提 示

1. 进入『返朴』微信"大众年夜众号底部菜单“佳构专栏“,可查阅不同主题系列科普文章。

2. 『返朴』供应按月检索文章功能。
关注"大众号,回答四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。