不雅观点丨OpenAI首席科学家Ilya Sutskever这么看无监督进修_紧缩器_数据

2024-11-14 21:15:38 计算机

近日，OpenAI 首席科学家 Ilya Sutskever 在专注于打算理论研究的 Simons Institute 作了一次讲座，一句话总结便是我们可以通过压缩的视角来看待无监督学习。
此外他还分享了不少其它有趣的见地。
机器之心整理了该演讲的大体内容，希望借此帮助读者更深入地理解无监督学习。

不雅观点丨OpenAI首席科学家Ilya Sutskever这么看无监督进修_紧缩器_数据计算机

Sutskever 首先谈到了自己的研究方向的变革，他说：「不久前，我将全部的研究重心都转移到了 AI 对齐研究上。
」这说的是 OpenAI 前段韶光成立的「Superalignment（超级对齐）」团队，由他与 Jan Leike 共同领导。
Sutskever 表示他们已经在 AI 对齐方面取得了一些研究成果，但这并非这次演讲关注的话题。
对此感兴趣的读者可参阅《用 AI 对齐 AI？超级对齐团队领导人详解 OpenAI 对齐超级智能四年操持》。

这次演讲的主题为「An observation on Generalization（对泛化的一种不雅观察）」，而 Ilya Sutskever 详细评论辩论的重点是一种阐明无监督学习的理论。

首先，Ilya Sutskever 提出了持续串有关「学习」的广义问题：学习究竟是什么？为什么学习有用？为什么学习该当有用？打算机为什么该当具备学习能力？为什么神经网络可以学习？为什么机器学习模型可以学习到数据的规律？我们能否用数学形式来描述学习？

监督学习

Sutskever 先从监督学习谈起。
他表示，监督学习方面已经有了主要的形式化事情，这是多位研究者在多年前得到的成果；这些成果常日被称为统计学习理论。

监督学习的上风在于能供应一个学习必定成功的精确数学条件。
也便是说，如果你有一些来自某数据分布的数据，然后你能成功实现较低的演习丢失并且你的演习数据足够多（多于数据分布的自由度），那么你的测试偏差必定很低。

从数学上讲，如果能在一类函数中找到能实现较低演习丢失的函数，那么学习就必定成功。
也因此，监督学习非常大略。

研究者在干系研究中已经创造了一些定理，如下便是一例。
Sutskever 表示阐明这个定理大概须要五分钟，但很显然他的演讲韶光有限。

总而言之，这个定理很「优雅」，只用三行数学推导便能证明监督学习过程。

以是相对而言，监督学习已经得到很好的理解。
我们知道其必定会成功的缘故原由 —— 只要我们能网络到大规模的监督学习数据集，那么就完备可以相信模型必定越来越好。
当然另一点也很主要，也便是担保测试分布和演习分布同等；只有这样，监督学习理论才是有效的。

以是监督学习的观点是很大略的。
我们也已经有了监督学习为什么有效的答案 —— 我们知道语音识别和图像分类为什么可以实现，由于它们都基于有效且有数学担保的监督学习。

这里 Ilya Sutskever 顺带提了提 VC 维度。
他提到很多统计学习理论的研究者都认为 VC 维度是一大关键组件，但 VC 维度被发明出来的目的是为了让模型有能力处理有无限精度的参数。

举个例子，如果你的线性分类器的每个参数都有无限精度，而现实中的浮点数的精度都是有限的，而且精度会紧缩，那么你可以通过 VC 维度实现一些函数，将这个线性分类器归约成前面公式描述的监督学习形式。

无监督学习是什么？

接下来看无监督学习。
首先什么是无监督学习？Ilya Sutskever 表示他目前还没看到令人满意的对无监督学习的阐释，我们也不知道如何从数学上推理它 —— 最多只能在直觉上做点推断。

无监督学习是机器学习领域长久以来的梦想。
Sutskever 认为这个目标已经在实验研究中达成，即模型在不被奉告数据内容的条件下不雅观察数据并创造个中存在的真实有用的隐蔽构造。

这是怎么发生的？我们能确保这一定会发生吗？Sutskever 表示我们不能，毕竟我们在无监督学习方面没有在监督学习方面那样的理论担保。

人们早在上世纪 80 年代就在探究无监督学习了，当时利用的术语也是类似。
在实验中，人们不雅观察到，当数据量较小时，不会涌现无监督学习征象，但是一些现在盛行的开拓思路已经涌现了，比如 BERT、扩散模型、老式的措辞模型等。
当时的无监督学习也能天生一些很酷的样本，但当然是比不上现在的技能。

但由于我们不知道无监督学习的事情办法，以是它一贯都让人困惑。

比如当你针对某个目标（比如图像重修或预测下一个词）进行优化时，你可能也在意另一个目标（比如图像分类或文档分类），而模型可能在这个未经优化的目标上也能取得不错的表现。
但为什么会这样呢？不知道，实验结果便是如此。
Sutskever 说这就像是邪术。

难道我们就要放弃理论，在实证主义上一起走下去吗？

我们知道无监督学习是学习输入分布中的构造，然后从中得到有助于实现目标的东西。
但如果输入分布是均匀分布（uniform distribution）呢？这时候各种无监督学习算法都会失落效。
我们该当怎么看待这种征象呢？Sutskever 表示我们须要做些假设。

一种无监督学习方法：分布匹配

接下来，Sutskever 展示了一种思考无监督学习的潜在办法。
他说这种无监督学习办法一贯没有成为主流，但却非常有趣。
它有与监督学习类似的特色，也便是一定有效。
为什么会这样？这涉及到一种名为分布匹配（distribution matching）的无监督学习流程。

接下来大略解释一下。
假设有两个数据源 X 和 Y，它们之间并无对应关系；模型的目标是找到函数 F，使得 F (X) 的分布与 Y 的分布近似 —— 这是对 F 的约束（constraint）。

对付机器翻译和语音识别等许多运用处景，这个约束可能是故意义的。
举个例子，如果有一个英语句子的分布，利用函数 F 后，可以得到靠近法语句子分布的分布，那么就可以说我们得到了 F 的真实约束。

如果 X 和 Y 的维度都足够高，那么 F 可能就有大量约束。
事实上，你乃至有可能从那些约束中规复完全的 F。
这是无监督学习的监督学习（supervised learning of unsupervised learning）的一个示例，它必定有效，就像监督学习必定有效一样。

此外，替代密码（subsitution cipher）也符合这一框架。

Sutskever 表示自己在 2015 年时独立创造了这一征象。
这让他不禁思考：大概我们能用某种故意义的数学形式来描述无监督学习。

当然，上面描述的机器翻译场景是简化过的人工场景，并不符合真实的运用情形，对应的无监督学习场景自然也是如此。

接下来，Sutskever 将阐述他提出的方法 —— 其能从数学上为无监督学习供应解释以及确保无监督学习的结果优秀。

众所周知，压缩便是一种预测，每个压缩器都可以转换为一个预测器，反之亦然。
全体压缩器与全体预测器之间存在逐一对应关系。

Sutskever 指出，为了能更清晰地解释对无监督学习的思考，利用压缩方面的论述办法更具上风。

基于此，他给出了一个思想实验。

假设你有两个数据集 X 和 Y，它们是你的硬盘上的两个文件；然后你有一个很棒的压缩算法 C。
再假设你对 X 和 Y 进行联合压缩，也便是先将它们连接起来，然后将其馈送给压缩器。

现在的主要问题是：一个足够好的压缩器会做什么？

Sutskever 给出了一个非常直觉式的答案：压缩器会利用 X 中存在的模式来帮助压缩 Y；反之亦然。

他表示，预测任务场景实在也存在类似的征象，但在压缩语境中提及来彷佛就更直不雅观一点。

如果你的压缩器足够好，那么对连接后文件的压缩结果该当不会差于分开压缩的结果。

因此，通过连接所得到的进一步压缩效果是你的压缩器把稳到的某种共有的构造。
压缩器越好，其能提取出的共有构培养越多。

两种压缩结果之间的差便是共有构造，即算法互信息（algorithmic mutual information）。

对应地，可以把 Y 视为监督任务的数据，X 视为无监督任务的数据，而你对这些信息有某种形式的数学推理 —— 可以利用 X 中的模式来帮助 Y 任务。

也要把稳其如何实现了对分布匹配的泛化。
如果是在分布匹配情形下，如果 X 是措辞 1，Y 是措辞 2，并且存在某个大略函数 F 可从一个分布转换到另一个分布；那么优秀的压缩器也能把稳到这一点并将其利用起来，乃至可能在内部规复出该函数。

这样一来，闭环就形成了。
那么我们如何用数学形式描述无监督学习呢？

无监督学习的数学形式化

把稳这一部分的描述会交替利用压缩场景和预测场景的描述。

首先假设我们有一个机器学习算法 A，其浸染是压缩 Y。
算法 A 能够访问 X。
令 X 为 1 号文件，Y 为 2 号文件。
我们希望我们的机器学习算法 / 压缩器能对 Y 进行压缩并且其能在得当的时候利用 X。
目标是尽可能地压缩 Y。

那么我们要问自己：利用这个算法最大的遗憾（regret）是什么？

Sutskever 阐明说：「如果我很好地完成了事情并且我的遗憾很低，就意味着我已经从这未标注的数据中得到了所有尽可能的帮助。
这些未标注数据已经尽可能地帮助了我。
我对此毫无遗憾。
」也便是说已经没有更好的预测值可供更好的压缩算法利用了。
「我已经从我的未标注数据中得到了最大收益。
」

Sutskever 认为这是向思考无监督学习所迈出的主要一步。
你不知道你的无监督数据集是否真的有用，但如果你在监督学习算法上的遗憾很低，那么不管有没有用，你都已经得到了最佳结果，不可能会有更好的结果了。

现在进入有些晦涩难懂的理论领域。

将 Kolmogorov 繁芜度用作终极压缩器能为我们供应超低遗憾的算法，但这实在并不是算法，由于它不可打算。

先大略阐明一下 Kolmogorov 繁芜度：就好比你给我一些数据，为了压缩它，我给你供应一个可能存在的最短的程序。
Kolmogorov 繁芜度就即是这个最短程序的长度。

令 C 是一个可打算的压缩器，那么对付所有 X，Kolmogorov 压缩器的繁芜度小于压缩器 C 的任意输出加上实现该压缩器所需的代码字符数。

我们可以利用仿照论证（simulation argument）来证明这一点。
假设有一个非常棒的压缩器 C，那么它可能是一个打算机程序，如果将这个打算机程序交给 K 来运行，那么 K 所需的本钱便是这个程序的长度。
Kolmogorov 压缩器可以仿照其它打算机程序和其它压缩器，也因此它是不可打算的。
它就像是一个能够仿照所有打算机程序的自由程序，但它也是有可能存在的最好的压缩器。

现在我们泛化 Kolmogorov 压缩器，使其可以利用其它信息。
我们知道 Kolmogorov 压缩器是不可打算的，不可剖断的，而像是搜索所有程序。
这就像是利用神经网络通过 SGD（随机梯度低落）调度参数来搜索程序。
这个过程运行在有一定资源（内存、步骤数）的打算机上，这就像是非常眇小的 Kolmogorov 压缩器。
这两者存在相似之处。

神经网络可以仿照小程序，它们是小小的打算机，有回路 / 电路。
我们可以利用 SGD 演习这些打算机，从数据中找到它的「电路」。

仿照论证在这里也适用。
如果你想设计一个更好的神经网络架构，你会创造这很困难，由于增长或修正连接这些操作虽然可以被其它神经网络架构仿照，但实际却难以做到。
由于这些是能带来巨大提升的罕见情形。
正如从 RNN 到 Transformer 转变。
RNN 有一个瓶颈：隐蔽状态。
但如果我们能找到一种方法，让 RNN 可以拥有非常大的隐蔽状态，那么它的性能表现可能会重新遇上 Transformer。

以是我们可以把条件 Kolmogorov 繁芜度作为无监督学习的解，如下所示：

个中 C 是一个可打算的压缩器，K (Y|X) 是如果能利用 X，能输出 Y 的最短程序的长度。

这是无监督学习的超低遗憾的解，只不过它是不可打算的，但却能供应一个有用的框架。

直接压缩统统！

Sutskever 又进一步提到「直接压缩统统」也是可行的。

条件 Kolmogorov 繁芜度 K (Y|X) 在机器学习语境中是不自然的，由于它是基于 X 来压缩 Y，而至少就目前而言，以大型数据集为条件还是基本无法办到的。
我们可以拟合大型数据集，但很难以其为条件。

而上式是表示：如果你想要对你监督的东西 Y 进行预测，利用压缩 X 和 Y 连接数据的常规 Kolmogorov 压缩器的表现与条件压缩器一样好。
当然实际细节还有更多奇妙之处，但这实在便是表示我们可以利用常规 Kolmogorov 压缩器来求解无监督学习 —— 便是将你的所有数据连接起来，然后实行压缩，这样就能在你关心的监督任务上得到很好的结果。

对此的证明要更繁芜一些，这里就不再连续深入了。

重点的结论是常规 Kolmogorov 压缩（无需以某个数据集为条件）是「以最好的可能办法利用」无标注数据。
这便是无监督学习的解。

联合压缩便是最大似然

Sutskever 在演讲中谈到的末了一点是：这种联合压缩便是最大似然，只要没有过拟合。

如果你有一个数据集，那么给定参数的似然之和便是压缩该数据集的本钱。
你还须要支付压缩参数的本钱。
而如果你想压缩两个数据集，也没有问题，只需向你的数据集添加数据点即可，也便是向上面的求和运算 sum 添加更多项。

以是通过连接数据来进行联合压缩在机器学习语境中是非常自然的做法。
比较而言，通过条件 Kolmogorov 繁芜度就麻烦多了。

我们乃至可以将其用于阐明神经网络的事情办法。
我们可以将用于大型神经网络的 SGD 用作我们的大型程序搜索器。
神经网络越大，就能更好地近似常规 Kolmogorov 压缩器。
Sutskever 评价说：「大概这便是我们喜好大型神经网络的缘故原由，由于我们可以以此近似不可实现的无遗憾常规 Kolmogorov 压缩器思想。
随着我们演习的神经网络越来越大，遗憾会越来越低。
」

此理论也适用于 GPT 模型吗？

Sutskever 对此的答案是肯定的，不过阐明 GPT 模型的行为时，无需引述有关压缩或监督学习的解释，你可以说 GPT 的「理论」可以通过对文本的条件分布进行推理而得到。

那么，我们能找到其它的直接验证方法来验证这一理论吗？我们能用视觉等其它领域来阐明吗？如果我们在像素数据上这样操作，我们能得到优秀的无监督学习吗？

Sutskever 表示他们已经在 2020 年做过这样的研究，即 iGPT。
当然，这紧张是一个验证观点的研究，离实践运用还有很大间隔，详见论文《Generative Pretraining from Pixels》。

该论文表明：如果你能做出很棒的下一步预测器，那么就能收成很棒的无监督学习效果。
这篇论文在图像领域证明了该论断。

大略来说，先将图片转换成像素序列，每个像素都有一个离散的密度值。
要做的便是利用同样的 Transformer 来预测下一个像素。
这不同于 BERT，便是预测下一个 token，由于这是最大化压缩的似然。

下面来看当作果：

如图所示，这是不同大小的 iGPT 模型在 CIFAR-10 上的线性探查准确度，也便是在无监督学习的像素预测任务上的下一步预测准确度。
可以看出，预测下一个像素就和预测下一个词一样有效。
当模型规模更大时，无监督学习的效果也更好。

他们进行了实验研究，结果创造在 ImageNet 上，经由多方面扩展的 iGPT 的表现可以靠近当今最佳的监督学习，但依然还有些差距。

不过 Sutskever 认为这便是个打算问题，由于 SimCLR 等监督学习办法利用的是高分辨率的大图，他们为巨型 Transformer（68 亿参数）供应的是 64×64 的小图。
这就像是基于一个大型数据集以无监督的办法预测下一个像素，然后在 ImageNet 上拟合线性探针，得到很好的结果。

而在 CIFAR-10 上，有 13.6 亿参数的 iGPT-L 取得了准确度 99% 的好成绩，如下图所示。

线性表征

演讲末了，Sutskever 表示他想谈谈线性表征。

他说：「我喜好压缩理论，由于在此之前还没有以严格办法思考无监督学习的方法。
」而现在我们能在一定程度上做到这一点了。
但压缩理论不能直接阐明为什么表征是线性可分的，也无法阐明该当有线性探针。
线性表征是无处不在的，它们形成的缘故原由必定很深刻。
Sutskever 相信我们能在未来清晰地阐释它。

他以为另一个有趣的地方是自回归模型在线性表征方面的表现优于 BERT。
但目前人们还不清楚个中的缘由。

不过 Sutskever 倒是给出了自己的推测：在根据之前所有的像素预测下一个像素时，模型须要不雅观察数据的长程构造。
BERT 在处理向量时会丢弃一些像素 token，通过兼顾地考虑一点过去和一点未来，模型实际上能得到相称好的预测结果。
这样一来就去除了所有困难任务，任务的难度就低落了很多。
预测下一个像素中最困难的预测任务比 BERT 预测情形中最困难的预测任务难多了。