港大年夜马毅:现在大年夜模型的「常识」不等同于「智能」_模子_智能
「模型无所谓大小,我们说精确的模型,主要看机制是否精确,这才是智能的实质。」
在他看来,真正的智能不仅仅是数据和算力的堆砌,而是更深层次的理解和洞察——是对数据压缩、模式识别和自主学习的深刻把握。
作为打算机视觉领域的有名学者,马毅目前担当喷鼻香港大学打算机系主任和数据科学研究院院长。加入喷鼻香港大学之前,他还是加州大学伯克利分校电子工程与打算机系教授。
2023 年 6 月,马毅教授带领的团队首创性地提出了一种「白盒」Transformer 构架——CRATE,能在保持模型良好性能的同时,大大增强模型的可阐明性,试图办理现有深度学习模型普遍难以阐明的「黑盒」问题。
同年 9 月,马毅创立「忆生科技」。马毅认为人的影象便是对天下的建模,「忆生」便是「影象天生」的缩写 。「虽然影象本身是去世的,但天生可以是活的。」
在谈及 AGI 时,他抛出一个问题:GPT-4 和刚出生的婴儿,谁更有知识?谁更有智能?
在他看来,知识和智能的观点被稠浊了。「智能是获取新知识、改进旧知识的能力,知识只是智能系统活动的结果积累。」
他认为,GPT-4就像一座图书馆,它更有知识但没有智能;而刚出生的婴儿虽然知识少、但更有智能,由于他们可以把现有知识中不敷的地方加以自主学习。DNA 是根本,后天的适应才是真正智能最高形式的表示。
没有人能说出真理是什么,但每个人都能说出自己认为的真理。在这场彭湃的浪潮中,马毅认为我们对付智能的理解实在才刚刚开始,还有很长的路要走。
以下是AI科技评论在西雅图采访马毅教授的访谈实录,作者进行了不改原意的编辑整理:
AI 科技评论:当前大模型的研究路径以黑盒模型为主,通过堆积参数来实现模型的智能水平。您怎么看待这条技能路线?
马毅:虽然大家还在相信 Scaling Law,但至少在视觉和自然措辞的结合方面,Scaling Law 技能路线已经碰着了瓶颈。
比如我们与谢赛宁、Yann LeCun 等人互助的、在今年 CVPR 上也会重点做 oral 报告的事情(如下),我们就创造,基于 Transformer 开拓的黑盒视觉措辞大模型如 GPT-4V 在九个根本视觉任务上存在系统性毛病。多模态又是 AI 的未来发展方向。
目前很多技能模型,实际上非常粗暴,乃至是一种相对原始的方法。扩展可以越多越好,但(我们)须要思考扩展的必要性以及能否找到精确的系统来扩展,这才是精确的理解 Scaling Law,而不是不计本钱和效率地去扩展。
为什么我们要扩展精确的模型?由于 Transformer 的「黑盒」是履历设计的办法,我们很难明得它的利用率,以是我们要通过演习一系列的深度网络来搞清楚Transformer 这样的黑盒模型事情的事理。
但我们实在可以采取一种更为合理的办法去优化。有一个词叫「Minimonistic Approach」(最小化方法),即用最简约的方法来设计模型,末了演习得到的模型,其可阐明性和可控性也能得到提升。
AI 科技评论:在这一波浪潮里,您以前任职的伯克利大学(UC Berkeley)在大模型方面产出了很多精彩成果。
马毅:顶尖院校一样平常都会在现有的技能上做一些领先的事情,比如 Sora 的团队研发卖力人也是伯克利人工智能专业的毕业生。
在工业界,你要把事情做得越来越「好」,而在学术界你要把事情做得越来越「对」。两者的分工是有区分的。
目前许多高校的老师很迷茫,认为学校没有资源、没有数据、没有算力乃至没有人才,彷佛就无法参与 AGI 或大模型的研究。但说实话,我们对付智能的理解实在才刚刚开始,还有很长的路要走。
AI 科技评论:我听说了一个有趣的数据,过去几年伯克利毕业的30多位博士生,大多数都去了 OpenAI。彷佛现在 AI 人才都往工业界发展了。
马毅:在过去,AI 毕业生去工业界的薪资可能只是学术界的 2-3 倍,但现在基本要靠近 10 倍,这对年轻人是很大的诱惑。现在去学术界须要一点情怀。
但院校也是一个能验证 AI 想法的利益所,比如近几年视觉领域两个奠基性的事情——NeRF 与 Diffusion Model,便是在伯克利出身的 。
如果想产生好的效果,工业界是一个好去处。
像神经网络,一开始演习一个模型须要好几天,初期也只有学术代价,但英伟达这些公司用大量的卡堆,很快就将过去十年同等规模的模型演习韶光缩短到几分钟乃至几秒钟。扩散模型也是,前期好几拨人都没做起来,末了 Stability AI砸重金做出 Midjourney,就把它的潜质放大出来,让大家看到了效果。
这也是我选择创业的缘故原由之一。
AI 科技评论:您的白盒理论有「4C」,Consistent(同等性)、Controllable(可控性)、Correct(精确性),还有一个 C 是什么?
马毅:还有一个「Complete」(完备性)。
Consistent 是说人对天下的理解要与物理天下保持同等,AI 模型也同样如此。比如,我们对特定场景的理解,看完场景后、闭上眼睛想一遍,再画出来的场景和现有场景一定是同等的。就像我面前有两个背包,你看到的和与闭眼画出来的一定是「两个」背包。如果不一致,我们就会做纠错。
「画」便是天生。2022 年以来文生图、文生视频很火,但天生详细的细节是很难的。想要生出更细节、更可控的内容,便是 Controllable。
接下来是 Correct,人对系统的理解要精确。如果我们要扩展一个别系,就要扩展一个精确的系统,这个别系不能是黑盒子,Correct 是要实现的网络构造。
Complete是在 Correct 的根本上更上一个层次,实现有关现有系统的完全性。虽然我们的影象是一个完全的系统,既能识别,也能预测,但现在黑盒模型的实验系统只是我们影象系统的一部分,并不完全。怎么实现一个完全的系统呢?这是一个问题,须要我们共同探究,但至少现有的系统还没有达到 Complete 的层面。
AI 科技评论:您是哪一年提出白盒理论的?
马毅:我们关于白盒理论的首个事情 ReduNet在 2021 年就揭橥在 NeurIPS 上,当时磋商了有关编码率减少度量信息增益的内容问题。
论文地址:https://arxiv.org/pdf/2105.10446
学习实际上是增大我们对天下的信息理解和获取能力,学术里把它叫做「信息增益」( Information Gain)。这是一个非常客不雅观的量,表示你获取的外部知识在内在大脑的表达中信息的增益性有多大。如果你去优化这个问题,神经网络就在优化这个量,你可以用目标函数从这个优化算法里推导出来。这样你就可以实现必要的知识,把冗余的东西全都去除。
我们紧张是从观点和理论的基本算法上理解,现在也看到了白盒理论和扩散模型、Transformer 的联系。目前我们的理论框架的高效性和有效性都得到了验证,但一贯讲理论实在很难说服别人,很多人不太熟习数学的观点,只有把它实现到一定规模、得到验证,才能让大家信服。
以是,目前在智能领域,虽然规模是有效的,但是去扩展精确的系统,才是我们真正该当做的。
你要真的理解系统,知道哪个别系比较精确、或更具性价比,才去进行扩展。我个人认为,我们须要先看到一些更加可控的、可阐明的乃至更完全的系统,再去研究它的下一步,看是否能把该系统工程化的实现,做出完全的自主型系统。
AI 科技评论:您的团队在白盒理论研究中的代表作是 CRATE 吗?目前它在实际运用中有什么上风和寻衅?
马毅:目前 CRATE 是让"大众看到这套框架从算法层面推导的过程、去噪扩散模型、与神经网络架构之间的联系。目前我们可以对现有的很多监督和非监督学习的框架做得更加高效,一旦理解这个事理可以阐明现有的方法都在做什么,那我们就可以去设计更高效的系统。
现在 CRATE 面临的只是韶光和资源的问题。在 Transformer 已经实现的场景下,我们能做的基本上都测试了,比如Bert、 MAE、GPT 等。所有的 Transformer 用到的场景,我们都能跟它靠近,乃至是超过他们。在初期,确实只能先从这些有限的场景来验证我们的方法是精确的、并且模型是高效的。
AI 科技评论:业内也有关于取代 Transformer 的谈论,一些团队提出了跟 Transformer 不同的架构。您怎么看这些架构?
马毅: 目前很多是在某一些任务上相对有效果,但并没有证明这个架构很通用。纵然你以为它的效率更高,你也不知道缘故原由。也便是说,这些架构都没有分开黑盒模型的范式。
深度网络本身不是目的, 只是我们实现智能目标的手段而已,为了我们增加获取外部天下的信息。
最近我们有个事情还没完备公开,是有关根据白盒框架可以推导出把稳力机制(Attention)的。Transformer 层面比较贵,如果你的长度是 n 个 token,它的繁芜度便是 n 的平方,或者你的特色尺寸是 d,它便是 d 的平方。以是模型繁芜度比较高的同时、也会影响它的规模,这便是为什么现在大模型须要很多卡的缘故原由(更多信息可以阅读 AI 科技评论以往宣布:《谁将替代 Transformer?》)。
实际上这件事情(投入大量卡)又不是必要的。我们现在的白盒事情在打算上完备可以实现线性繁芜,跟 Mamba 等架构有同样的选择。但是跟它们不一样的是,我们推导出了模型的背后事情事理,并且知道一个模型的组成部分是完备可以完成它所设计的目标。
AI 科技评论:您目前对付白盒理论从理论到落地的方案是什么?
马毅:过去几年,我们的(白盒)理论框架开拓了一些算法,虽然比较根本,但在这个理论框架的辅导下,我们已经能很好地提高模型演习的效率,乃至找到更完全部系的方法。我个人认为,至少在观点和验证的层面,我们能从学术上做的事情基本上都做到了,包括理论保障和算法设计,剖析的也非常完全。
那么下一部分,可能就须要比较规范的工程化和规模化的验证了。在一些真实的运用层面上,把这些新方法的代价展现出来,由于这些代价只能通过更大的规模去验证,才能让"大众年夜众更好的看到它们的代价潜力。
在更大规模的视觉理解层面上,它的潜力至少是大脑的影象模型,包括影象如何生存、改进以及提高,从而把它做成一个完全的天生影象的系统。
AI 科技评论:您认可 AGI 这个词吗?
马毅:一个别系「有知识」和「有智能」,是两个观点。
智能是获取新知识,改进旧知识的能力,知识只是智能系统这个活动的结果积累,就像人类的知识是我们这么多人大脑的积累。智能的实质是生存影象,找到这个天下可控和可预测的规律,不断进行改进和增加新的知识进来。知识是积分,智能是微分,知识是可以大家一起来积累的。
我常常举例子,GPT-4和一个出生的婴儿,谁更有知识?谁更有智能?GPT-4就像一座图书馆,它更有知识但没有智能,但刚出生的婴儿却有可能是下一个爱因斯坦,由于他们可以把现有知识中不敷的地方加以自主学习,这才是智能的实质。
再看一个大略的征象,我们认为智能越高等的动物越不依赖于我们 DNA 传承的东西。如果你认为“智力”越多,越依赖于靠影象和纯粹的去世记硬背,这是“智能”的话,那么人的“智能”是非常少的。你会创造越高等的智能,它学习时长也就越长,从而获取知识的能力就越强。DNA 是一个根本,但它后天的适应才是真正智能最高形式的表示。
AI 科技评论:现在海内面壁智能、国外 Mistral 等团队从 Scaling Law 入手,也能将曲线不断往回移,提高模型的打算效率,您怎么看?
马毅: 目前大家普遍用履历在做考试测验,没有比较完善和清晰的理论来做辅导,试错韶光会比较长。像现在盛行的 MoE(Mixture of Experts)技能,它的框架用白盒理论能推导出来,实在便是残差神经网络(ResNet)在优化信息增益的过程中自然会推导出来的构造,每一层都会有多个路子。
我们的 CRATE 也是同样类似的构造,大家考试测验出来和推导出来的都是一样的,试出来有它的道理,但是如果有事理,你就可以理解涌现的缘故原由。大家目前还是在遵照 Transformer 的思路,以是在探求新架构的时候没有理论的指引,就会缺少自傲。
从 19 世纪 40 年代以来80多年的人工智能历史,实在有很多人是不太理解的。正是由于目前我们对这些历史观点梳理的缺失落,才导致很多观点虽然被重塑了,但还是短缺了系统性和连贯性。不是提出一个观点,这个技能便是我发明的,由于到目前为止这个天下还没有创造这种新鲜事。
过去十年,大家虽然看到技能发达发展,但实际上没有什么新观点,乃至很多观点都稠浊了。我们做学问的人要把历史观点梳理清楚,让大家知道事物发展的过程和传承,这样历史上得到的很多深入的教训和知识,才能更好地实现。这是现在我们还没做到的,我们必须得承认。
AI 科技评论:目前除了算法层,底层打算层也涌现了许多环绕英伟达 GPU 生态改进的创业公司,比如 Groq、 OpenAI 投的芯片公司 Cerebras System 等。如果大模型的耗能问题办理,那么白盒理论的研究代价是否会受到寻衅?
马毅:完备不会。芯片领域的这一进展正好是我们所希望看到的。
大家每每认为智能在做一件很了不起或者很繁芜的事情,但实在不是,智能该当因此最小的代价把最随意马虎的事情先做好。最早图灵时期,试图设计一个通用机器去打算天下上所有可算的东西,实际上我们生存所用的功能是很有限的。后来创造它们无法被高效地皮算,以是才有 P 问题(Polynomial Problem)和 NP 问题(Non-deterministic Polynomial Problem)的差异。
现在我们的生物是要从海量高维数据当中去提炼它可预期的规律,像二阶繁芜度、三阶繁芜度和高阶繁芜度,虽然都是多项式,但都是用不了的。这样高维的数据、图像和声音,必须要非常可扩展的算法。自然界的优化一定不是用全面优化的方法,而是用非常局部的增量优化的方法。
以是,真正的智能所须要的打算实际上是非常高效和简洁的,我们的白盒理论便是要见告大家什么样的打算是智能真正须要的,把黑盒理论当中不必要的冗余全部舍去。
我不做芯片,但我相信现在通用机器的 GPU 有点大材小用,完备不是智能本身所须要的东西。以是现在我们这套白盒理论便是见告大家,哪些是最实质须要的,只须要实现智能系统真正所须要的打算进行优化就好了。智能便是先把最随意马虎、最好解的、对生存最有利的东西,用最小的代价先把它最大规模的实现了,然后再逐步的往上近一步的去办理其他的问题。
AI 科技评论:您在做一件蛮大胆的事情,赔率很高,如果一旦成功就会直接推翻现有的所有事情。
马毅:我以为该当要做这件事情。第一,精确理解模型的理论,理解模型 work 的缘故原由、还能有哪些创新等等。第二,把理论简化或者统一,把现有的不高效的点做成一个履历方法的归纳。
现在通过大量履历找到的方法也有它的道理,但你须要把它实质的道理和缘故原由搞明白才能瞥见未来。以是理论本身并不是目的,也不一定要去颠覆,而是为了简化,去帮助大家通过演绎的方法来预测未来怎么改进。
未经「AI科技评论」授权,严禁以任何办法在网页、论坛、社区进行转载!
公众年夜众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本"大众号名片。
本文系作者个人观点,不代表本站立场,转载请注明出处!