关于人工智能背后的数学的 10 个深刻谜底_人工智能_数据
要点
过去几年最大的革命之一是人工智能:包括天生式人工智能在内的人工智能,它可以对任何讯问做出(常日)明智的回应。但人工智能不仅仅是一个盛行词或一个给你答案的“神秘盒子”;它是将大量高质量的数据集与繁芜的数学算法结合在一起产生的令人着迷的结果。在这篇文章中,我们从《机器为什么学习:当代人工智能背后的优雅数学》一书 的作者Anil Ananthaswamy那里得到了 10 个关于人工智能的有趣问题的深刻答案。机器为什么要学习?纵然在不久的过去,这个问题也还是很荒谬,由于机器(即打算机)只能实行人类程序员编写的任何指令。然而,随着天生式人工智能或人工智能的兴起,机器彷佛真的具有学习能力,可以根据与人类和非人类用户的持续互动来改进答案。大型基于措辞模型的人工智能程序(如 ChatGPT、Claude、Gemini 等)现在非常遍及,它们正在环球各地的运用程序中取代包括 Google 搜索在内的传统工具。
这是怎么发生的?我们怎么会如此迅速地生活在这样一个时期:许多人都乐意将传统上须要人类专家处理的生活事务交给打算机程序?从财务到医疗决策,从量子系统到蛋白质折叠,从数据排序到在一片噪音中探求旗子暗记,许多利用人工智能 (AI) 和机器学习 (ML) 的程序在这些任务上的表现乃至比最伟大的人类专家还要出色。
在他的新书《为什么机器学习:当代人工智能背后的优雅数学》中,科学作家 Anil Ananthaswamy 磋商了所有这些方面以及更多内容。本文作者Ethan Siegel有幸与他进行了一次问答采访,以下是新书作者年夜方给出的 10 个最深刻的回答。
Ethan Siegel (ES):很多人听到“AI”(人工智能)这个词,就会立即想到一些比他们听到“打算机程序”这个词时想到的东西更深刻、更奇特的东西。您认为传统打算机程序和融入人工智能的打算机软件之间的紧张差异和相似之处是什么?
Anil Ananthaswamy (AA):如今我们评论辩论人工智能时,指的是人工智能的一种分外形式,即机器学习 (ML)。当然,这样的系统也是打算机程序。但与传统的打算机程序不同,在传统的打算机程序中,程序员知道要实现的确切算法,并将一些输入转化为必要的输出,而机器学习程序则通过检讨演习数据中存在的模式,找出将输入转化为输出的算法。集成人工智能的打算机软件将利用此类 ML 程序。ML 的上风在于它能够学习繁芜的算法,将输入(例如,描述图像的文本提示)转换为输出(图像)——程序员险些不可能明确设计这样的算法;它们必须从数据中存在的模式中学习。
ES:您的书名为《机器学习的缘故原由:当代人工智能背后的优雅数学》,我最初对当代人工智能背后的数学被描述为优雅感到困惑。至少据我所知,人工智能利用的大部分数学只是数学或物理专业学生在本科教诲的前两年学习的数学:多维微积分、线性代数、概率和统计、傅里叶剖析,加上一点信息论和(有时)微分方程。这些数学工具有什么“优雅”之处呢?
AA:机器学习所依赖的数学的优雅性当然是主不雅观的。我从 ML 定理和证明的角度评论辩论优雅性。例如,Frank Rosenblatt 感知器算法的收敛性证明非常幽美,它表明如果存在这样的线性划分,该算法将在有限的韶光内找到一种线性分离两个数据簇的方法。机器学习算法(称为支持向量机)背后的思想也是如此,它利用所谓的查究法将低维数据投影到更高乃至无限的维度中,并利用低维对应项打算高维空间中向量的点积,使其在打算上易于处理。用于演习深度神经网络的反向传播算法大略而优雅 - 它是微积分中链式法则的直接应用。还有很多其他这样的例子。
ES:我们常常将“人工智能”和“机器学习”等术语作为同义词利用,当我们这样做时,我们不得不将“自然智能”和“学习”进行比较,就像我们作为聪明、寻求知识的人类理解的那样。但我们对“智能”和“学习”的传统不雅观念并不一定能反响出 AI/ML 系统在幕后所做的事情。人工智能系统实际上在做什么,更准确的描述是什么?
AA:当代人工智能确实是机器学习的同义词,尤其是深度学习,它是机器学习的一种形式。广义上讲,这些机器学习算法可以学习数据中存在的模式,而无需明确编程。这些算法常日用于区分不同类别的数据(例如,用于图像或语音识别),或者用于通过从演习数据的概率分布中学习和采样来天生新数据。在后一种情形下,如果算法学习了这样的分布,那么就可以演习它从分布中采样以天生与演习数据在统计上相似的数据,因此得名天生式人工智能。
大型措辞模型是天生式人工智能的一个例子。虽然这些算法非常强大,乃至在演习的狭窄任务上赛过人类,但它们无法泛化到演习数据分布之外的数据问题。从这个意义上说,它们并不像人类那样智能。
ES:人工智能面临的最大任务之一便是人类所谓的“模式识别”。这是我们大脑本能地默认做的事情:我们根据过去的经历对当前的经历做出决定。然而,对付打算机来说,只有当输入打算机的内容与系统已经在其演习数据集中“看到”的内容之间有足够的数学匹配时,模式识别才会涌现。在人工智能涌现之前,这项任务非常难以实现,打算机是如何完成这项任务的?
AA:详细阐述上一个问题的答案,大多数机器学习算法通过首先将数据转换为向量来进行模式识别。例如,可以将 10×10 的图像转换为 100 维向量,个中每个维度记录一个像素的值。一旦映射到这个空间,算法就可以做很多事情。例如,它可以找到一个高维表面,将一组表示猫图像的向量与另一组表示狗图像的向量分开。一旦找到这样的表面,就可以利用该算法将以前未见过的图像分类为狗或猫,方法是将图像转换为向量,映射向量并检讨它是否落在表面的一侧或另一侧。
对付天生式人工智能,算法可以找到或估计一个高维曲面,该曲面代表数据(在本例中,代表猫和狗图像的向量)的概率分布。估计出该分布后,它可以从曲面中采样以找到一个底层向量,该向量可以重新转换为看起来像猫或狗的图像。深度学习通过识别可用于对图像进行分类的特色(例如,长而松软的耳朵更有可能与狗干系联)或学习此类特色(而不是单个像素值)的概率分布,进一步推进了这一过程。
ES:我常常听到有人说,任何人工智能系统的性能都受到其演习数据的质量以及随后输入进行剖析的数据质量的限定。纵然我们拥有所谓的“天生性”人工智能能力,我们仍旧不相信人工智能真的能够凭空创造 。就天生我们以是为的“新”内容而言,原始数据集的局限性终极如何限定人工智能系统的能力?
AA:演习数据将遵照某种概率分布,并且假设这种分布代表基本事实。例如,如果你正在学习人物图像中的模式,那么假设你利用的数十万张图像代表所有人,纵然不是个中的很大一部分。你对已经学习了某些演习数据中存在的模式的机器学习系统的任何哀求都仅限于剖析假定来自相同分布的新数据。因此,如果你只用白种人的脸来演习你的图像识别系统,它将无法天生来自中国或印度的人的图像,由于它从未在演习数据中看到过这样的模式。这些都是当前机器学习系统固有的局限性。
ES:在天体物理学领域,我们最近看到大量天体物理数据被输入到机器学习系统中,随后创造了数百乃至数千个物体——星系、系生手星、原行星系统等——人类在第一次查看数据时要么忽略了,要么没能找到。人工智能/机器学习系统是如何完成这些任务的?是什么让它们如此适宜捕捉这些“隐蔽”在数据中的细节,纵然是最专业的人类也会错过它们?
AA:这里没有什么邪术。这归结于这些 AI/ML 算法在有足够的高质量数据的情形下创造不同种别物体之间细微差别的能力:人类可能会忽略这些差别。再加上当代打算系统的速率和内存容量,这些算法确实可以大规模地创造天体物理数据中的新物体。但 ML 算法总是存在过度拟合的危险——拾取数据和其种别之间的虚假干系性——从而犯下人类可能不会犯的缺点。机器学习的大部分事情都归结为避免这种过度拟合,以便算法在看不见的数据上表现最佳。
ES:大多数人对 AI 系统的熟习紧张是通过大型措辞模型 (LLM),例如 ChatGPT、Claude 或 Gemini。只管这些模型可以与人类进行对话,并对险些任何你能想到的问题供应非常自傲、翔实的答案——包括阅读和解读 CAPTCHA,而传统打算机在这方面表现不佳——但个中许多答案中包含的信息每每是禁绝确的。例如,如果我问个中一个模型,“平方介于 15 和 26 之间的最小整数是多少?”只管 AI 系统对答案充满信心,但我险些肯定会看到它惨败。我们碰着了什么限定:数学限定、演习数据限定、理解限定,还是有其他完备不同的成分在起浸染?
AA:大型措辞模型已经由演习,可以根据给定的单词序列(这里利用“单词”而不是“标记”)预测下一个单词。想象一下,一个 LLM 已经由演习,可以利用互联网上的大量文本(尤其是像 Wikipedia 这样的高质量文本)来预测下一个单词。现在,当给定 100 个单词的序列时,LLM 会天生第 101 个单词、第 102 个单词等等,直到天生一个表示文本结束的标记。它停滞。从数学上讲,在每一步中,LLM 都会根据给定的单词输入序列打算其全体词汇表的条件概率分布,从该分布中选择最可能的单词,将其附加到输入序列,并对这个新输入实行相同操作。它并没有被专门教导如何推理或回答数学问题。
如果 LLM 的演习数据规模和数量适当增加,它彷佛可以完成个中一些任务,这让人们感到惊异。在它可以精确回答并表现出明显理解的情形下,这意味着它已经看到了足够的演习数据,可以精确地仿照极高维空间中的条件概率分布。因此,根据你对理解或领悟的标准设定,LLM 可以轻松通过或一败涂地。它们失落败是由于 LLM 的架构及其演习实质上是关于建模干系性的:只是这些系统的大小和规模使得它们可以学习足以回答大量问题的繁芜干系性;然而,它们可能会在大略的数学和推理任务上失落败。
纯挚地将 LLM 规模扩大是否能提高其推理能力,这仍是一个悬而未决的问题。一些人认为,这是 LLM 的原则性限定,它们永久无法始终精确地推理。另一些人认为,扩大规模将办理个中一些问题,就像大型 LLM 可以做小型 LLM 做不到的事情一样,只管它们的演习办法完备相同,只是须要打算的数据更多。辩论非常激烈。
ES:过去,我们已经看到打算机远远超越了最专业的人类所能完成的事情。这发生在 20 世纪 90 年代(或者可以说更早),例如跳棋、黑白棋和国际象棋等游戏,后来又发生在 2015 年的围棋等更繁芜的游戏上。本日,许多人完备相信天生式人工智能系统有朝一日会在生活的各个领域超越人类的能力,从艺术、音乐和电影制作到理论物理和纯数学。另一方面,其他人嘲笑这个想法,并坚持认为人类不仅会永久在这些领域霸占一席之地,而且任何类型的人工智能都永久无法与最精良的人类相提并论。根据您对人工智能的理解,您对这个话题有什么意见?
AA:我疑惑当前的深度学习系统,纵然是那些被演习成天生式人工智能的系统,是否会在生活的各个领域超越人类。但这并不是说这些机器学习系统的架构和演习办法不会有创新,这些创新可能会使更强大的机器靠近人类所拥有的灵巧智能。请记住,破解图像识别问题须要卷积神经网络的发明、GPU 的利用和大量演习数据。同样,Transformer 架构的发明使 LLM 成为可能。在这些发展发生之前很难预见到它们。
事实上,在深度学习办理图像识别问题之前,许多人认为这是不可能的。但它确实发生了。我疑惑,要让人工智能表现出像人类一样的智能,它必须通过与环境(物理或虚拟)的互动来表示和学习。我们的智力很大程度上是嵌入身体的大脑的结果。进化也确实创造了我们大脑和身体的构造,原则上没有情由认为我们可能无法用机器做到这一点。究竟何时以及如何实现是一个备受争议的问题。
ES:天生式人工智能系统的“肮脏小秘密”之一常日是它们须要多少功率和能量才能回答哪怕是最普通的查询。我们估量这个问题会永久存在吗?或者,人工智能用来天生查询相应的数学工具是否可以用来提高天生这些答案的人工智能系统的效率?
AA:演习大型措辞模型和其他形式的天生式人工智能所需的功率和能量确实是一个极其严重的问题。然而,人们正在努力通过利用所谓的脉冲神经网络来提高人工神经网络的效率,这种神经网络利用的人工神经元以与生物神经元非常相似的办法“脉冲”,而不是持续开启。事实证明,脉冲神经网络更难演习,由于确定神经元何时该当脉冲的阈值函数是不可微的,而利用反向传播演习神经网络须要全体打算链都是可微的,以便打算优化梯度。
但最近的进展已经表明,纵然是脉冲神经网络,也可以打算近似梯度,从而实现演习。此类网络花费的能量要少得多,但条件是它们运行在实现硬件而非软件神经元的神经形态芯片上。要大规模实现这统统,还须要做大量事情。
ES:末了,有许多数学领域比传统的 AI/ML 系统所利用的数学领域要繁芜得多,也前辈得多。根据这些“底层”引擎中融入的数学类型,您如何预见 AI/ML 的能力将发生若何的变革——希望它们能够变得更强大、更准确、更有能力办理问题?
AA:机器学习系统要想变得更强大、更准确、更有能力办理问题,个中一种方法便是以更繁芜的办法利用隐蔽在数据中的模式。例如,可以利用流形学习,它假设极高维数据(打算本钱高昂)具有低维构造:降落数据的维数可以加快机器学习速率。当然,流形学习假设这种降维是可能的,并且不会导致信息丢失。
另一种无需做太多假设就能从数据中提取更多信息的方法是将拓扑数据剖析(即确定环球范围内数据的形状或特色)与机器学习相结合。另一种从数据中压迫更多信息的方法是将图论与机器学习结合利用。图是一种繁芜的组合数据构造,可用于表示工具之间的繁芜关系并供应向量的替代方案;将图与机器学习相结合有望提高机器学习的模式识别能力。
原文链接:https://bigthink.com/starts-with-a-bang/10-answers-math-artificial-intelligence/
本文系作者个人观点,不代表本站立场,转载请注明出处!