Yoshua Bengio:深度进修若何实现系统进化?_变量_体系
编辑 | 陈彩娴
8月29日至30日,主题为“智周万物”的2020年中国人工智能大会(CCAI 2020)在位于江苏南京的新加坡·南京生态科技岛举办。
加拿大蒙特利尔大学教授、2018年图灵奖得到者、蒙特利尔学习算法研究所(Mila)主管Yoshua Bengio在这次大会中进行了在线演讲,演讲主题是《DeepLearning:From System One to System Two》。
Yoshua Bengio提到,人的认知系统包含两个子系统:系统1和系统2。系统1是直觉系统,紧张卖力快速、无意识、非措辞的认知,这是目前深度学习紧张做的事情;系统2是逻辑剖析系统,是故意识的、带逻辑、方案、推理以及可以措辞表达的系统,这是未来深度学习须要着重考虑的。
对付系统2来说,基本的要素包括把稳力和意识,意识先验可以利用稀疏因子图模型来实现,这是一个思路,实现了因果关系。从人的角度来看意识,措辞是高层次的表示,这须要把人的两个认知系统即系统1和系统2有机的结合起来,也便是说把低层次的表示和高层次的决策结合起来,从而实现系统进化。
对付如何用深度学习来实现系统2,Yoshua Bengio指出,最关键便是处理数据分布中的变革。对付处理数据分布,传统机器学习都是基于独立同分布的假设,但实际须要关注更多的是分布外泛化。尤其是从强化学习的角度来考虑,须要考虑哪些是影响数据分布变革的成分。
以下是演讲全文,AI科技评论进行了不改变原意的整理:
1 下一代深度学习
在本日的演讲中,我谈论的主题是下一代深度学习/深度学习2.0。
首先,我意识到在机器学习中存在一个潜在的假设,称其为“惊人的假设”。在这个中,可能存在一些大略的事理可以逐渐发展为智能,而它们都基于学习。这些事理对付人类智能、动物智能以及智能机器都是很普遍的。这些事理足够大略,可以像物理定律一样加以描述和压缩。这与八十年代的主流方法大相径庭,由于当时人们认为智能是大量知识技巧的凑集。相反,这个假设依赖于一小组通用的机制,并且须要知识。
用于人工智能和机器学习的神经网络方法受到大脑事情事理的启示。个中的打算过程基于大量大略的自适应打算单元的协同浸染。如今,我们重点关注的是表示的观点,尤其是分布式表示的观点。
因此,通过深度学习方法,我们将智能视为由三个紧张事物的组合所产生:
1、要优化的目标函数或褒奖函数;
2、用于逼近最优解的优化器或学习规则,它将修正神经连接的权重以大最优化目标函数或褒奖函数;
3、初始的网络架构。
末了,我们可以运用学习规则并实行端到端学习,个中不同部分都相互折衷从而最优化全局目标函数。
2 分布外泛化
当前的神经网络和机器学习可能短缺什么?我们对演习分布以外的泛化性没有很好的理解。我们谈论学习理论时,常日谈论对测试集的泛化性。测试集的分布和演习集的分布常日是相同的。我们须要更好的理论来思考如何泛化修正的分布或实现分布外泛化,这也是一个实际干系的题,由于在现实天下中,演习数据和实际支配时碰着的数据分布常日是不同的。
人类能够以某种高效办法重用已拥有的知识,而当前的机器学习并不善于知识重组。机器学习善于的是将知识模块化为可重用的片段。因此,如果能用精确的方法将上述的组合性观点实际上与组合增强有关,可以带来某种指数上风。
在机器学习和深度学习中,组合性以不同的形式涌现。在分布式表示的观点中,表示中的特色的任何子集都可以存在或处于激活状态,这实际上可以带来指数上风,就像我们几年前在揭橥在ICLR2014的事情中展示的分段线性激活函数布局。组合性带来的指数上风还在于,我们可以用堆叠的层构建深度学习网络,形成了函数的函数的函数的…这也是我们本日利用的标准深度单元。但是,目前短缺人类利用一种特定措辞的另一种形式的组合性,这种形式常日称为系统泛化性,这种泛化性使我们能通过类比实行抽象推理。
通过重组现有观点和知识片段来阐明新不雅观察结果的观点在措辞中非常普遍,在措辞学和其他领域中已有了干系研究。例如,Lake等人在2015年的事情中展示,对不同类型车辆的理解可以使系统能够理解未见过的新型车辆。系统泛化的强大之处在于,纵然新的组合在演习分布下的实际概率为零,也能够做进行系统泛化。新的组合是如此新颖,以至于在演习分布中不存在。根据物理定律,我们乃至可以预测不可能发生的事情,例如科幻小说描述的情景。
有时候它们只是隐变量,例如你须要在交通规则不同的其他国家/地区行驶,这时必须修正隐变量,并以某种办法泛化。人类泛化能力的有趣地方在于,有时须要故意识的处理和把稳力才能做到,当前的机器学习和深度学习并不善于这一点。
3 系统1和系统2
通过这种故意识的把稳力,人类可以动态地重组适当的知识,以应对新颖或罕见的情形,并以此为依据进行推理和预测,想象出办理问题的新方法。当人类这样做时,其行为办法不同于直觉惯性的行为办法。
这两种思维办法与系统1和系统2的观点有关,可以归结为快思考和慢思考。让我们考试测验将这两种认知处理分开。我们拥有直觉的系统能力,可以很快做出精确的决定,该过程发生在无意识的水平。在这种时候,我们很难弄清大脑中发生的事情。当实行习气性行为(例如开车回家)时,我们始终会这样以同样的办法实行,而无需费力的思考,同时还能做其他事情(例如在开车时和人交谈)。我们利用了有关天下的知识,但这是没有明确访问权限的一种知识形式,很多过程是隐式的,这正是深度学习所善于的。
另一方面,在实行系统2任务时,大脑要采纳一系列步骤,以办理逻辑思维问题,这时须要更多韶光来想出答案,并且是故意识地思考。因此,我们可以用自然措辞向其他人阐明我们的思考过程。这便是我们提出算法、操持和推理时所运用的思考模式,这时要利用的知识涉及可以口头向他人阐明的显式知识。这也是我们希望深度学习拥有的能力。利用这种能力,我们可以在与人互换中利用高等语义观点,从而将它们重新组合,从而实现泛化性。
当人类运用系统2的能力时,会利用故意识的把稳力。把稳力是深度学习的新工具,在去的几年中,已经取得了巨大的成功。我们开始将把稳力用于机器翻译。把稳力许可在单次打算集中于少数几个元素。如果利用软把稳力,则通过反向传播来学习把稳力权重。从神经科学的角度来看,把稳力就像一块内部肌肉,不是从要对外部天下实行什么行为,而是在进行内部决策时,确定如何在大脑等分配打算量。
神经网络中把稳力的另一个有趣方面是,它使我们能够摆脱传统环境设置的限定。在传统环境设置中,我们只能操作一些特色向量。现在有了把稳力机制,工具集、(键、值)对集已经在自然措辞处理中得到了广泛运用,而Transformer在很多NLP任务上都处于领先地位。
这种把稳力机制恰好是当前意识理论的核心。在认知神经科学中,C-word不再是禁忌,但由于某种缘故原由,它在AI中仍旧是禁忌。我认为现在该是时候看看认知神经科学在意识方面取得的进展,看看是否可以从中得到启示,以建立新的机器学习架构和演习框架。
全局事情空间理论(Global Workspace Theory)是意识的紧张理论之一,由Baars在1988年发起。这个理论的基本思想是大脑由许多不同的专家模块组成,这些专家模块须要以连贯的办法进行互换,以便找到新问题的办理方案。它事情办法可能是,故意识的处理中存在瓶颈构造。例如,在任何时候,把稳力都只能关注少量元素。
选定的元素以及它们附带的值将通过瓶颈构造传播到全体皮质。这些值存储在短期影象中,并且与感知和行为的干系性非常强。故意识地完成的任务与系统2有关。之以是须要这样的瓶颈构造,是由于故意识的处理使我们能够对可能的未来进行某种连贯的仿照,这正是我们想象时发生过程。而与电影不同的是,该仿照在每个步骤仅涉及几个抽象观点,瓶颈构造和同等的处理办法可以确保匆匆成该仿照的皮质不同部分产生同等的配置和彼此连贯。
4 系统2知足的7个假设
现在,我们采取另一种谈论办法,这和可措辞化知识与不可措辞化知识有关。在大脑中,当我谈系统1和系统2时,彷佛都涉及不可靠的隐性知识。我们拥有适口头表达的知识,可用于故意识地进行推理和操持,并向他人阐明。关于这两种知识存在一些假设,它们可以捕获天下的不同方面。系统2捕获的方面知足一些假设,系统1捕获的某些先验不须要知足这些假设。
在机器学习中考虑先验时,常日会认为先验或多或少是精确的。但实际上,如果存在对天下某些方面适用的假设,那么在理解天下时就该当涉及一些变量,大概这些先验对其他方面没有任何意义。如果是这样,将知识分为两种是合理的,即知足假设的类型,和不知足假设的类型。对付不知足假设条件的方面,可以通过系统1来处理,以便可以利用先验上风来得到更好的泛化能力。如果我们相信这个假设,首先要清楚,在系统2中存在而在系统1中不存在的这些假设是什么。
因此,我列出了这些假设,该列表可能须要完善,但是这些是对高等系统变量以及系统2知识均有效的原则。我将先大略描述这些假设,然后对部分假设详细解释。
这些假设如下:
1、高等语义变量空间的因子图是稀疏的;
2、语义变量是因果的;
3、分布的变革基于局部的语义空间中的因果干预;
4、高等语义变量之间存在大略的映射;
5、跨实例元组的共享规则;
6、高等语义变量的含义对付分布的变革是稳定的、鲁棒的;
7、信用分配只是短因果链;
第一个假设是我在2017年的一篇论文中谈到的故意识先验(The Conscious Prior)。里面谈到,我们希望在深度学习表示的最高层创造的那些高等语义变量,具有一个联合分布。如果我们将联合分布表示为因子图,则这种联合分布会以某种办法更精确地展现,这些表示依赖关系的因子图非常稀疏。
我将举一些例子来解释这样做的意义。考虑一下自然措辞,当一个句子包含这些高等变量时,该句子就可以表达关于天下的陈述。该句子捕获了高等变量之间的某些依存关系,仅涉及几个变量,因此是稀疏的。
第二个假设是,那些带有语义变量的高等变量,与因果关系有关。如果考虑措辞中的词汇,它们常日会见告我们有关智能体、人、动物在世界上发生的事情,以及如何干预天下,即通过他们的行为改变天下。
这些词汇也见告我们有关这些智能体所具有的行动或意图。因此,智能体通过行为导致事情发生,然后它们将通过这些行为对天下产生影响,影响效果常日超出工具本身。因此,我们可以将这些工具视为可控实体,智能体可以掌握这些工具。而且,在工具本身之间可能产生关系。
第三个假设不是关于变量的性子,也不是关于变量的联合分布,而是关于联合分布在现实天下中如何变革的趋势。其思想是,影响常日是由智能体做某事引起的,或者我们称之为干预。因此,在这种情形下,一次只发生很少的事情,这意味着在所有这些高等语义变量的巨大图形化模型中,只有很少一部分变量描述这样的变革。我们可以用自然措辞以某种办法确认这个假设,由于我们可以用一个或多个句子通过重布局描述天下的那种变革,这些句子仅涉及几个变量。因此,这实际上是一个非常有力的假设。
第一个假设见告我们,高等知识被分解成与依赖项相对应的小片段,这些依赖项一次涉及几个变量,我们可以用新的办法重新组合它们。第四个假设是,我们要探求的高等表示之间有一个大略的映射,措辞、句子、单词等都有某种大略的映射思想,以及在构建的系统中的表示形式。
为了能够重新组合这些知识、依赖项、变量,我们须要对图模型做一些操作。我们须要引入某种形式的共享,并考虑规则和可行性。规则描述了一些变量之间的依赖性,这些变量不必是实际的实例或工具,它们可能是抽象的,这是可行的方法。因此,这里有一种互动形式。然后,你可以结合这些知识,这些知识以新的办法捕获依赖关系,而不仅仅是固定构造。这是第五个假设。
然后是与表示本身有关的第六个假设。请记住,我们对天下的变革办法感兴趣。现在的问题是,当天下变革时,变革的本色是什么?我们可以这样定义,即天下的变革是某些量或某些依赖项的变革。这些变量的定义该当是稳定的。因此,我们考虑利用一种编码器,将像素级别表示映射到语义级别表示(例如种别),并且该映射该当是稳定的,这个过程须要学习。因此,随着我们看到更多数据,它的语义表示发生变革,但是该当会收敛。而阐明这个天下的一些隐变量的值可能会由于智能体的干预而变得不稳定。
末了一个即第七个假设,即信用分配仅仅是因果链,因果链非常短。该假设与人类推理的办法有关,人类推理的办法有助于信用分配。同样,自然措辞被用来阐明,并且只涉及因果链中的少量变量或要素。
5 因子图的稀疏性
下图展示了一个因子图,该因子图中有两种节点。圆圈代表变量,正方形代表变量之间的依赖关系,这些依赖关系也称为因子, 联合分布是通过这些因子的标准化乘积得到的。每个因子都与一个潜在函数干系联,该函数以该因子所连接的变量的值作为参数。
原则上,因子图可以具有涉及所有变量的因子,因而并不稀疏。然而,人类凭借明确的知识构建的因子图非常稀疏,自然措辞的特性是一种证明。“如果我丢球,它将掉在地上。”你会把稳到该句子仅包含几个单词,每一个单词或短语都对应于一些高等语义观点。
有趣的是,你可以这样说,声称在球、放下球的动作以及位置之间存在依赖性。令人惊异的是,很多预测都将是精确的,纵然该预测涉及的变量很少。
如果要预测一个随机变量,则须要在一些涉及许多随机变量的大的联合分布中来预测一个变量。常日,我们须要以所有其他变量为条件。如果仅以一个很小的子集为条件就足够了,那么在该因子中就有一个构造,这种构造可以使我们更好进行泛化。对付其他变量而言,这种假设并不一定是精确的。例如,这些假设不适用于像素级变量, 根据其他像素预测一个像素是非常困难的。这就见告我们,当我们逼迫实行此假设时,我们还对与该假设同等的表示进行了逼迫。
现在,我们希望神经网络能够创造这些高等变量。它们是解缠因子,但不是相互独立的。与最近许多关于解缠变分因子的事情不同,那些高等变量通过稀疏因子图的构造相互依赖,但是它们不是独立的。
这里评论辩论的知识表示是一种声明性表示。大脑在做的是推理,不是仅供应某些信息或某些变量,而是对其他变量进行预测,推理机制是一种打算。现在将知识分解成声明形式中与不同依赖项相对应的小片段,目前尚不清楚如何将其转化为关于推理办法的某种知识分解。但是,如果我们看看人类是如何根据这些知识进行推理的,也容许以从中得到一些线索。我们可以利用顺序过程来完成此过程,同时将把稳力集中在因子图的少数几个元素上。
因此,在这种情形下,推理机制也被布局成这些片段。但是,根据推理链的类型,我们将遍历该链,例如以不同的顺序组合不同的片段。由于图不是链,它有很多路子。这启示了我们设计推理机制,这是一样平常的神经网络用来进行推理、预测事物的办法。为此,我们设计了一种形式的循环网络,我们称之为循环独立机制(Recurrent Independent Mechanisms, RIM)。
比较关注于所有隐蔽单元(从t到t+1)均相互连接的变量,我们聚焦于含有循环模块(recurrent module)、模块与模块之间相互连接的稀疏模块化构造(sparse module structure)。此外,模块之间设置了把稳力机制,用于掌握模块之间的稀疏互换办法。
首先,纵然是最根本的循环独立机制也能在许多须要利用循环网络的场景供应改进浸染。如上图所示,这是用RIM代替LSTM而取得的进步。此处,数值大于0的结果均表示性能改进。
这项事情中最振奋民气的拓展之一便是RIM。它的涌现源于全局事情空间论理论(Global Workspace Theory)。在该理论中,模块之间可以通过前面提到的瓶颈构造相互互换。在这里,“瓶颈”指的是一个事情空间,或信息存储器(working memory),在这个空间内,利用了把稳力的所选模块能被写入信息存储器内。之后,存储在信息存储器内的信息会通报给所有模块。
我们创造,在许多涉及到强化学习和建模序列(modeling sequences)的设置中,RIM的表现比LSTM和其他方法的表现均更出色。我所提到的这些实验还能够更公理务(比如添加任务)。这些实验的有趣之处在于,利用这些架构的紧张上风之一是可以在分布外测试模型。
我们运用了把稳力机制进行模块挑选。把稳力机制可以根据输入判断哪些模块是干系的,然后灵巧选择不同的RIM模块。自然而然地,在处理新的输入时,你可以利用这种新颖的办法将已存在的模块进行组合。在这些实验中,我们清楚地看到了模块化和元学习的上风。这是Kanika Madan等人最近完成的事情。
6 因果关系
我们想要创造高等语义变量的精确表示空间。你可以考虑在原始输入(例如像素)上利用编码器和解码器,以得到高等语义变量,进而创造能将数听说明为高等表示的、精确的因果变量。
这个中也涉及到干预。此处,我们可以在图中设置一些与智能体的动作相对应的节点,并且它们将导致某些变革。这时候可以怎么做呢?
首先,由于我们要处理的是因果关系和干预问题。因此,在假设数据是静态的情形下,就像演习机器学习系统, 并不能帮助我们梳理清楚因果关系,也不能帮助我们理解不同变量如何与智能体、与这个天下的可控方面等对应。
这时,我们该研究那些行为会随着韶光而发生变革的学习场景。这一点很主要。有趣的是,一旦开始评论辩论智能体,就会逐渐形成由于智能体的行为而引起分布变革的观点,尤其是在多智能体的场景,如下图所示。
这个天下以非固定的办法改变。比方说,一旦你进入有危险怪物或拥有大量现金的地方,你的生活就会永久改变。这是动物必须面对的处境。换句话说,大脑的学习机制也具有进化能力,还具备从分布形状成的泛化能力。
因此,让我们谈谈如何利用分布的改变来学习良好的表示,我们从原始输入到语义空间进行谈论。当天下发生某些变革时,实际上首先是原始输入发生了改变,然后要看看语义空间是否也发生改变。
我们如何才能更实际地利用这一上风?去年,我们就这一角度揭橥了第一篇论文,揭橥在今年的ICLR 2020上。在个中我们考虑了一个非常大略的场景,个中只有两个核心变量a和b,我们可能没有不雅观察到a和b,而只是不雅观察到理解码器的输出。个中我们不雅观察到x和y,x和y都取决于a和b。现在,我们要做的是创造x、y的不雅观测值之间的关系,a、b是隐变量,它们之间的因果关系有各种可能。事实证明,如果拥有精确的模型和精确的表示形式,则可以利用更少的示例来适应变革,这样就可以更快地学习。
如果有足够的数据,就无需理会构造或模型的缘故原由,只因此不同的办法对联合分布进行建模,但终极它们会收敛到同一个结果。但是,如果只有少量数据,那么精确的因果构培养具有很大的上风。
最近,我们将这种想法扩展为从较大的因果图中学习。然后,我们将该方法与创造因果构造的现有方法进行了比较。而且,我们创造该方法实际上可以更频繁地创造精确的因果图。有趣的是,该方法还可以泛化到未见过的干预。
这种方法的总体思路是,在所有可能的图上保持一个分布。在这项事情中,我们可以列举所有可能的因果构造。如果有很多变量,那么图将具有指数数量的可能图。因此,如果想理解哪种方法是精确的,并且利用某种随机评分方法。我们希望在图构造上平滑地改变后验分布,并且有一种有效的方法可以将这种后验分解为一系列因子。因此,我们保持了这些概率,并且可以利用采样方法对这些概率打算梯度,收敛到特定的图。
7 结论
这项事情关于从系统1到系统2的有趣一壁是措辞。正如一开始所说,关于天下的知识既分布在知足这些假设的系统2中,又分布在不知足这些假设的系统1中。当我们想理解一个句子时,我们也须要系统1的部分,这是扎根于自然措辞的思想。因此,我们要做的便是用自然措辞共同学习系统1和系统2,而不是仅从测试分布中学习。我们在可以不雅观察图像、动作和对应它们的自然措辞的环境中学习,这是从我之条件到的BabyAI项目开始的研究。但是,涉及这些根本的措辞学习设置有很多研究方向,而这实际上是将系统2的这些思想与自然措辞联系起来所必需的。
末了,我想说的是,作为机器学习研究职员,在这项事情以及其他事情中,我们都肩负任务。我们不仅仅只在大学和实验室学习,而是该当在现实天下中时候进行学习。这意味着我们必须把稳工为难刁难社会产生的影响。就好比聪慧赛跑:是技能得以让天下进步。我们须要确保社会准备好接管这一点,我们要有足够的个人和集体聪慧,避免对技能进行灾害性的利用。
2020年8月23日 - 2020年8月30日“森林书”留言送书活动已结束,"大众年夜众号后台回答“森林书”三字即可获取中奖名单,这两天AI科技评论会与大家取得联系。
本文系作者个人观点,不代表本站立场,转载请注明出处!