徐宗本院士:数学与 AI 的关系是「融通共进」| CCAI 2019_人工智能_数据
CCAI 2019 会场外景
会议第二日,徐宗本院士作为首位演讲高朋,从他的数学专业出发,年夜方冲动大方地为大家带来了主题为《AI 与数学:融通共进》的报告。
在开场前,他先从徐匡迪之问——「人工智能的基石在数学,我们有多少数学家投身进去了?」以及任正非答问时强调「人工智能的实质便是数学」的不雅观点引入,表达了自己对付人工智能与数学之间的关系的意见:融通共进,一方面,人工智能的根本之一是数学,因此人工智能想要行稳致远,就必须先把数学的基本问题办理好;另一方面,人工智能的发展也对数学领域的研究产生了主要的推动浸染。
在本次报告中,徐宗本院士重点分享的内容包括四个部分:第一,为理解人工智能和数学之间的关系供应一个框架,阐述数学方法与人工智能方法在处理问题的方法论上存在着实质上的同等性,因而二者能够「融通」;第二,从数学维度指出人工智能在目前发展中所存在的几个关键问题;第三,展示人工智能为数学研究所带来的新的方法论;第四,为人工智能与数学的领悟办法提出详细方法。
与此同时,徐宗本院士也指出,本次他演讲中提到的「人工智能」,紧张是指机器学习,虽然这只是人工智能的一部分,但是就他看来,是最能够直接成为生产力并且也是非常主要的部分。
AI 与数学:在办理问题的基本方法论上具有同等性
一开始,徐宗本院士对机器学习的基本观点进行理解释,他表示,大略而言,智能便是仿照人的一种行为或者说能力,即在给定环境中,能通过与环境的交互和自行来提高自身办理问题的能力,而采取一个机器或者软件来仿照这种智能时,便是机器学习。从数学的维度而言,机器学习表示的是一个函数空间或参数空间的优化问题。
他认为,无论是从机器学习还是数学,二者在办理问题上都可以用上图中的这一框架来描述,个中包括两个最为主要的部分:一个是智能体,一个是环境。
智能体:它是指一个含参数、可调节的任务求解器,其形态可以是深度网络,也可以是机器人、无人系统或者一个算法。
环境:这里所说的环境一定有两个基本性子:第一,环境是可以描述的,如果用数据来描述便是人工智能方法,如果用模型来描述便是数学方法或物理方法,如果是用知识来描述的就可能是知识工程方法等等;第二,环境是可以对其进行建模的,能够借以对智能体的行为作出判断,即可作为改动智能体行为的指标。
「具备这两个基本性子的环境加上智能体,组成的统一体便叫做机器学习系统,这实在便是我们研究问题的基本方法论。」
接下来,徐宗本院士也先容了机器学者的几个范例模型,包括:
第一,深度学习。所谓的深度学习便是指输入一个数据,然后得到一个依赖于数据的预测或者是判断,它的环境是有标签的大数据,同时其运用的基本条件是有缘故原由或结果组成且量很大的有序对。
第二,自编码器。当下这一代的人工智能就在于特色表述,这就涉及到自编码器这项主要的技能。编码器的任务便是提取数据的内涵特色,可以用来实现降维等任务。它的环境是无标签的数据。
第三,对抗天生(GAN)。大数据不足是大数据领域的常见问题,而对抗天生便是利用网络天生一些数据的模型。它的环境是没有标签同时量也很小的小数据,不过这些数据都是比较准确的,也便是我们所说的原数据。
第四,强化学习。强化学习时该研究领域常用的模型,它要办理的是须要对终极的决策卖力的场景,比如智能驾驶须要在当下时候知道下一步怎么走,比如说不才棋的时候也要知道走了这一步后,将对将来的胜负产生多大的影响等等。它的环境不一定是数据,比如说自动驾驶的环境便是各种传感器对身处环境的描述。
「那在这些模型中,数学和物理充当什么浸染呢?以上图强化学习为例,智能体就正在办理一个数学问题,此刻它的环境便是给定的数学公式、定解条件或边界条件等。因此从实质上来看,人工智能、知识工程以及数学在办理问题时所利用的基本方法论实在是具有统一性的。」
目前,人工智能已经经由了「从一个不可用的技能发展到一个可运用的技能」的拐点,其缘故原由有三:一是有了大量有标签的大数据;二是涌现了像深度学习这样的标准模型和算法;三是拥有了强大的打算力,例如超算和云打算。
对此,徐宗本院士指出,在欣喜人工智能变成可用技能的同时,我们必须镇静地看到,目前我们间隔人工智能的真正家当化,真正能把人工智能技能用得明白、也用得好,仍旧还有很长一段路要走。以机器学习为例,从数据层面上讲,我们还须要利用大量的人工去标注,去选择样本;从运用层面而言,还须要自己去搭建不同的神经构造,去选择不同的演习算法,因而在现阶段,我们还处于一个「用多少人工换来多少智能」的人工智能阶段。
而要想从「可以用」走到「很好用」则还存在很多技能寻衅:首先在数据样本层面上,数据样本须要实现自天生、自选择;其次在模型算法层面上,模型算法须要实现自构建、自设计;末了在环境任务层面上,环境任务要实现自适应、自转换。
「我们将实现了以上三个方面的六个特色的人工智能叫做机器学习自动化,这是我带领的研究小组这几年在主攻的方向。关于大家问到人工智能未来的发展方向,我们不妨以实现共产主义来做类比:我认为人工智能的共产主义目标是自主智能,然而在实现共产主义之前我们必须先走过社会主义低级阶段——机器学习自动化便是社会主义低级阶段目标。以是说,人工智能的发展轨迹该当是从人工走向自动化,再迈向自主智能。」
AI 发展面临的五大数学根本问题基于以上提及的下一步人工智能发展目标,徐宗本院士指出,要想真正实现机器的自动化,必须首先办理以下五个数学领域的根本问题:
第一,大数据的统计学根本。人工智能运用的基本模式则包括感、知、控三个部分,个中,感,便是将环境中的各种要素通过各种各样的传感器变成数据的数字化过程;知,便是指能读懂大数据,这是机器学习的紧张部分;控,则是指机器将由数据得到的知识和规则用于实际掌握。贯穿着三个基本模型的核心技能便是大数据,而统计学则是理解、剖析大数据的根本。目前,支持大数据剖析的数学根本尚未完备建立起来。
第二,大数据打算根本算法。大数据一样平常运用于剖析处理两类基本任务:一类因此打算机逻辑为根本的搜索、比对、排序、溯源等问题;一类是剖析数据之间是否具有共性构造等的聚类、分类、回归等问题。这两类问题都以数学模型为根本。然而一些传统的打算,在大数据环境下都变成了全新的问题,因而针对大数据环境重修大数据打算的根本算法和剖析处理算法,都成为当下亟待办理的问题。
第三,深度学习的数学事理。「深度学习现在存在很多毛病,张钹院士昨天也说过了,然而深度学习是目前最能够为大家所普遍接管的人工智能技能之一,就像高考,虽然被人诟病很多,但是目前还没有更好的办法来替代它一样,深度学习同样如此。比如它存在的可阐明性问题,紧张还是由于它无法利用明确的数据公式来进行展开,因而如何从数学上证明深度学习在每一层网络上的展开情形,是当下迫不及待的事情;其余,什么样的构造决定什么样的性子,因而我们还须要研究清楚深度学习中构造和性子的关系问题。
第四,非常规约束下的输运问题。人工智能的很多问题都可以抽象为:将一个领域的数据转移到其余一个领域的数据,比如说机器翻译,就实现不同措辞之间的转换问题。是日然就涉及到「什么样的数据之间能够进行转移」的问题。而众所周知,能够实现转移的条件是,两个领域之间的数据存在一「公共不变量」,这是数学的标准术语。比如说机器能翻译就存在语义这一不变量,例如医疗运用同样遵照这一思路,即 CT 图象转成核磁图象过程中,同一个人本身便是便是这个不变量。如何判断数据能够被转移,以及如何实现不同领域的数据转移问题,就叫做非传统约束下的传输问题。
第五,学习方法论的建模与函数空间上的学习理论。目前机器学习所处的阶段是:数据是中央以及机器学习和泛化的工具。这就哀求数据对问题具有普适性、可推广性以及学习性,数学中对此的一个提法是学习方法论或者说函数空间上的学习理论。在迈向机器学习自动化之前,就必须使其具有对干系问题的公共方法论的学习,然而目前这还是一个全新的研究领域,暂时还没有涌现干系的研究框架。
「这五个问题是通向自主智能锁必须办理的基本问题,而这也反过来解释了为什么我们都说人工智能的基石在数学的缘故原由。」
AI 反过来为数学研究供应了全新的视角
数学对付人工智能的根本性浸染不言而喻,而反过来,人工智能技能同样也为数学领域的研究带来了全新的视角,并带来了一些革命性影响。徐宗本院士紧张基于人工智能为优化、PDE 问题的数学研究所带来的推动浸染,进行了该部分的先容。
AI 对优化的运用
最优化是数学的基本问题,然而数学传统在研究这个问题上有很多的局限性,包括无法实现全局优化、不涉及超参数问题以及适配性问题等,例如在局部优化方面研究得很彻底,但便是没有人研究办理某个「世纪」问题该当用什么方法。而人工智能在这几个问题上的运用,都能带来非常可喜的结果。
徐宗本院士表示,人工智能对优化问题的研究带来了全新的思考,对此他提到了三个案例:
第一,办理适配性问题。「Learn to Learn」这个方法最早涌现于 2006 年,随后就一发不可整顿地涌现了很多技能,包括「学会搜索」、「学会 teach」、「学会推理」等以「学会」为主体的推理方法。这类方法都是从宏不雅观学习方法论的角度办理问题,基于这些方法,现在我们已经有了一个对任意优化问题都可用的自适应优化器。
第二,办理超参数问题。以压缩感知问题为例,下图为压缩感知的基本框架。公式中,第一项是拟合项,现在采取人工智能技能往后,可以在公式中将超参数作为参数利用,对照着问题去演习,能够一次性地把压缩感知的选择问题办理,该方法尤其是在图象处理、医疗成像等运用中,都是实现了目前性能最好的神经网络模型。
第三,解全局优化问题。全局优化问题一贯以来都是个难题,但如果从强化学习的视角来办理这个问题,它的面貌就会见目一新。比如在 MNIST 手写数字识别中要办理 7960 维的优化问题,就可以利用全梯度低落方法来进行优化。
AI 对 PDE 问题的运用
而人工智能对 PDE 问题的运用,同样被徐宗本院士视作人工智能在数学中的成功运用。下图中公式为 PDE 的一样平常形式:第一行方程式是含导数的关系式;第二行方方程式则是指该函数该当知足的初始条件;第三行方程式办法则表示公式在边界情形下的对应关系。三个方程式合在一起便是微分方程定解问题。
对此,数学家已经提出了有限差分法、有限元法、有限体方法等等,都很成功,然而不得不承认的是,在办理繁芜边界以及繁芜的函数时,这些方法的效果并不好。而人工智能则为这一问题供应了一个全新的视角和完备不同的办理方向,即利用对空间的采样即积分方法来提到离散化的微分方法。
对应人工智能的框架来说,即可以将智能体理解为找微分方程解,环境就可以理解为上面方程式给出的初始条件和边界对应关系。基于这种方法,终极能够让神经网络逼近微分方程的解。
同时,徐宗本院士还特殊先容了 AI 在反问题中的运用。他指出,反问题是 CT、核磁共振、雷达等运用的根本之根本,都是根据已知的东西推理未知的东西,而如果将这些问题改造成神经网络的话,就能带来意想不到的效果。
首先是受到编码器的启迪,他对自编码器供应的「黑箱」编码、解码以及数据编码、解码的方法进行改造,提出了模型驱动、机理溶入的反问题求解框架,并由此提出解反问题的无监督学习、全监督学习和半监督学习的三种模式都采取这一框架去实现的不雅观点。
其次在解线性方程组的运用上,此前,Y=aX 作为线性方程组的基本公式,我们一定须要知道 a 的详细值以及是否可逆的等等。而现在深度学习则能够做到「不问东西」、「不问是非黑白」地直接给出解。
其余在地震波反演的运用上,在利用人工智能方法后,地震勘探不再只是纯挚解偏方程数字解,终极更能够「看清楚」地底下的情形。
AI 与数学领悟共通方法论:数据不足模型补,模型不精数据上
演讲末了,徐宗本院士还对 AI 与数学未来的「领悟共通」发展进行了展望,提出了详细的研究方向。他指出,从认识论和方法论上来看,数学与 AI 交互浸染的实质是提倡「模型驱动」与「数据驱动」的结合,而这种结合具有巨大的潜力,个中详细的结合办法包括:
第一,数据不足模型补,模型不精数据上。「这句话,这两年我说过很多次,现在我越来越以为这两句话很对。一方面,当我们抱怨数据不足时,我们还可以想想我们在几十年的研究中已经积攒了很多模型,并且模型便是数据的升华,因而用上一个好的模型可以大大减少对数据的依赖性;另一方面,模型晴天然很好,然而当无法实现一个精细的模型时,我们还能够用数据去补,实际上现在在很多科学研究中,研究者们都在用数据填补模型上的不敷。」
第二,物理机理启示,知识融入。「这同样也是极为主要的科学方法论,是我们可以用来提高办理问题的质量以及人工智能效能的主要法宝。」
大会首日,雷锋网 AI 科技评论也在现场为大家带来了张钹院士的演讲宣布《张钹院士:人工智能的魅力便是它永久在路上 | CCAI 2019 》,大家可前往查看。 雷锋网
本文系作者个人观点,不代表本站立场,转载请注明出处!