在这种探索和思考下,“多模态”成为人工智能领域诸领军式专家和学者重点谈及的研究方向,例如,自然措辞处理领域专家刘群教授在此前与 AI 科技评论的对话中,就曾谈及诺亚方舟语音语义实验室目前的一大重点研究方向便是多模态;德国汉堡科学院院士张建伟认为人机交互的未来是多模态共享模式;打算机视觉领域专家贾佳亚教授则在多场演讲中提出「多模态是人工智能的未来」这一不雅观点。

专访俞栋:多模态是迈向通用人工智能的重要倾向_多模_模子 绘影字幕

而腾讯作为业界关注这一研究方向的代表之一,自 2018 年 2 月就开始关注多模态方向的研究,并于 2018 年 11 月宣告探索下一代人机交互办法:多模态智能。

9 月 2 日,在腾讯 AI Lab 携手 Nature Research(自然科研)及旗下《自然-机器智能》、《自然-生物医学工程》两本期刊联合举办天下首届「Nature Conference - AI 与机器人大会」上,语音识别领域的领头人之一、腾讯 AI Lab 副主任、多模态虚拟人项目卖力人俞栋博士更是基于其在多模态技能上的研究成果,带来了《虚拟人中的多模态合成技能》的演讲报告,以虚拟人项目为载体,向大家先容了多模态的技能上风,并分享了腾讯 AI Lab 在这一方向上的研究和运用探索。

会后,AI 科技评论还对俞栋博士进行了专访,进一步磋商了多模态的运用探索情形,个中,俞栋博士在将多模态这一研究方向视为迈向通用人工智能的打破口的同时,也以更加镇静的态度指出,多模态会是未来人工智能的一个非常主要的方向,但并不是全部。
由于人工智能是一个很广泛的观点,我们目前对它可能只是略知皮毛,通往通用人工智能的这条路到底是怎么样的,大家都还处于一个探索状态。

与此同时,AI 科技评论也借此机会跟俞栋博士聊了聊他领先将深度学习技能运用到语音识别领域的历史渊源、从微软研究院到腾讯 AI Lab 的职业转变经历以及其对付语音识别领域未来发展的意见。

我们先来看俞栋博士在本次大会上都分享了什么。

为什么多模态是人机交互的发展趋势?

人机交互走过了键盘交互、触摸交互等多少阶段,目前许多设备采取语音交互的办法。
而交互模式经历每一次变革背后的驱动力,都是对人和机器之间交互的便利性、自然性以及准确性所提出的更高的哀求。

为了更好地知足人机交互的这一需求,俞栋博士指出了一个非常主要的研究方向或者说发展趋势,那便是多模态人机交互。
与此同时,俞栋博士也阐明了为什么多模态是人机交互的发展趋势的缘故原由,紧张有四点:

第一,多模态交互能够让人类在不同的场景下可以选择不同的模态组合进行交互,进而从整体长进步人机交互的自然度;

第二,在多模态技能下,一个模态可以补充另一个模态的弱点,从而能够通过领悟多个模态的信息,得到更精确的用户、情绪、场景、和发声人位置估计;

第三,多模态交互具有「互为监督」的上风,即当机器无法得到某个模态的明显信息时,其他模态可以为其供应弱监督信息,让机器能够持续做系统自适应调度;

第四,多模态能够让人们在与机器的交互过程中拥有多维觉得,从而能够从视觉、听觉、触觉等多方面体会机器的情绪和表达的语义。

而除了所具备的这些上风外,俞栋博士认为,多模态交互还能够给业界带来更多的想象空间,比如可以考试测验利用人机交互技能去做虚拟讲授、虚拟前台、虚拟陪伴等。

正是由于多模态交互所具备的这些上风以及所带来的这种想象空间,他也领导团队开启了虚拟人的研究项目。
下面,俞栋博士也以虚拟人这项研究成果为载体,对多模态交互技能进行了详细先容。

多模态交互技能详解及运用成果分享

俞栋博士首先先容了多模态交互的系统框架,紧张包括三个部分:多模态输入、中间的认知和决策掌握环节以及末了的输出。

进一步,俞栋博士向大家展示了多模态技能的阶段性成果——虚拟人的合成技能流程:系统首先从文本中提取各种各样的信息,包括动作、表情、情绪、重音位置、和激动程度等;之后将这些信息输入到动作表情模型天生动作和表情,同时输入给多模态合成系统 DurIAN 同步天生语音以及口型和表情参数,进而合成真人或者卡通形象。

个中,同步合针言音和图像的 DurIAN 模型作为多模态合成技能的核心成果,则是俞栋博士本次要先容的重点内容。

据俞栋博士先容,相较于传统语音合成方法以及目前最新的端到端语音合成方法,运用多模态合成技能DurIAN 模型,无论是在自然度、鲁棒性、可控性、泛化能力以及实时性等方面都取得了更好的效果。

传统语音合成方法 VS 端到端语音合成方法

在正式先容 DurIAN 模型前,俞栋博士先先容了传统语音合成方法、端到端语音合成方法、以及这两种方法各自的优缺陷。

传统语音合成方法紧张基于 BLSTM+WORLD 模型,拥有稳定性和可控性较强的优点,同时也存在合针言音机器感太浓的缺陷。
不过由于该方法具备较强的稳定性和可控性,在工业界的实用系统中紧张还是利用这种框架。

端到真个语音合成方法优点则在于自然度很高,缺陷则是稳定性和可控性比较差,个中最常见的问题是漏字和重复。
以从文献中摘录的结果为例,该系统涌现漏字或者重复缺点的可能性为 1%-5%。
因而,该方法在实用系统里没有得到广泛利用。
不过比来,该方法取得了很大进展,例如谷歌于 2018 年提出的结合 WaveNet 的 Tacotron 模型。

比较于传统语音合成方法,端到端语音合成模型 Tacotron 的上风紧张有四个改进部分:

第一,它利用了基于神经网络的编码器模型来更换人工设计的措辞学特色;

第二,它直接预测含有丰富信息的频率谱,而不是源过滤器声学特色;

第三,它引入了自回归模型,办理了合成过程中的过度平滑问题;

第四,它采取了基于把稳力机制的端到端演习方法。

不过,这种端到真个把稳力机制也带来了稳定性差的问题。
俞栋博士团队通过剖析创造,把稳力机制是模型涌现漏词、重复等问题的紧张缘故原由。
下图右边有两个合成案例,个中标蓝的字是被漏掉的。

运用多模态技能的语音合成系统:DurIAN 模型

基于对端到端语音合成模型 Tacotron 涌现漏词、重复等问题的缘故原由的创造,俞栋博士团队在 DurIAN 模型中提出理解决方案,即保留 Tacotron 模型中对语音合成的自然度有益的部分,也便是上述提到的前三个改进部分,然后利用时长预测模型来更换端到端把稳力机制。
其基本做法是演习一个音素时长预测模型,然后在给定时长的情形下,对模型进行端到端演习。

这样的话,DurIAN 模型在能够担保不涌现漏字、重复问题的情形下,既能保持端到端语音合成模型自然度高的上风,又能办理系统的稳定性和可控性问题。

个中,在可控性方面,DurIAN 模型还能进一步实现风雅的掌握,基本思路是采取监督学习方法,不过不须要对演习语料进行风雅标注,比如只须要标注语音是否激动或者语速是快还是慢。
在演习时,让每一个掌握变量都学习一个指向性矢量;在合成过程中,则只需对相应的矢量做连续值的缩放,便可以实现风雅化的风格掌握。

除了稳定性和可控性,DurIAN 模型在鲁棒性和泛化能力、实时化等方面都有较大的提升。

针对此前端到端语音合成系统存在鲁棒性以及泛化能力弱的问题,DurIAN 模型引入了措辞学信息,尤其是标点和韵律边界,即通过充分利用中文语音里的韵律构造来提高模型的泛化性能。
详细做法是在 DurIAN 模型中采取 Skip Encoder 来替代 Tacotron 模型中的编码器构造,从而有效引入中文语句里的韵律构造。
而Skip Encoder 的基本思想是,在输入时用额外的帧显式表达这些措辞学信息,不过由于标点和韵律边界本身是一个韶光点而不是一个韶光段,因而在编码器输出的地方放弃跳过额外增加的帧,这样每一帧的编码器输出仍旧与频率谱的帧相对应。

在实时化问题上,此前谷歌曾提出了 waveRNN 模型,虽然在运算速率上比神经声码器一开始常用的 wavenet 快很多,经由仔细的工程优化也能够实现实时,然而实时率不佳,且语音合成本钱高。
对此,俞栋博士团队提出了多频段同步式 waveRNN 技能,其基本做法是把语音信息分频段,每一步用同一个声码器模型同时预测多个频段的值,如果分成 4 个频段,则每一步可以打算 4 个值,打算次数便是原来的四分之一。
与此同时,在合成过程中,声码器预测多频段的值后,通过上采样和专门的滤波器设计就能担保规复没有失落真的原始旗子暗记。

语音合成以外,俞栋博士还展示了 DurIAN 模型在同步合成多模态信息上的上风,即该模型中的时长预测模型,可让系统能够同步合针言音、嘴型以及面部表情参数,最终生成卡通形象或者真人形象的虚拟人。

未来事情展望

只管在自然度和鲁棒性、风格可控、实时性以及同步合针言音、嘴型和面部表情等方面,DurIAN 模型已经做得非常不错,但俞栋博士也指出,该技能还有很多探索的空间,未来其团队也还有很多事情要做,紧张包括四个方向:

第一,在模型优化上,须要探索在 DurIAN 构造根本上的端到端演习方法,以更好地支持端到端优化;

第二,在掌握能力上,须要让模型进一步拥有全方位的掌握能力,即能够在不同的场景、情绪、音色、语气信息下,合成对应的语音;

第三,在演习语料方面,须要能够让系统从低质量的语估中学习韵律,从高质量地语估中学习音质;

第四,须要对模型的定制化进行进一步探索,从而在少量的语音语料(<15 分钟)的情形下,也能够演习出新的音色。

AI 科技评论专访俞栋博士对话实录:

多模态在虚拟人项目中的运用探索

问:本次您的报告主题是《虚拟人中的多模态合成》,您在演讲中重点先容了虚拟人这一最新成果以及多模态在虚拟人中的技能运用,那您一开始研究这个项目的契机是什么?

俞栋:第一,我们越来越意识到单一技能能做的事情非常少,因而须要将很多的技能组合起来,这样才能做出比较有影响力的成果。

第二,腾讯 AI Lab 创立之初就刚好设立了虚拟人所须要的各个研究方向,包括语音、自然措辞处理、机器学习、打算机视觉等等,以是在虚拟人这个项目上,我们目前所具备的条件已经是比较成熟的。

第三,多模态交互是历史发展的一定趋势,我们预估这项技能在接下来的几年韶光里会变得越来越主要。

问:目前虚拟人项目的进展如何?

俞栋:我们去年下半年开始方案这个项目,今年年初算是真正开始有组织地做这个项目,经由八个月韶光的研究,该项目也取得了一些进展。
(干系进展见上述报告部分)

这个项目大概分为三个核心的部分:第一个是虚拟人的输出;第二个是虚拟人的输入,包括看、听、触摸等感知方面的东西;第三个是认知和对话的模块,这个模块成熟度最低,但也是非常主要的模块。
对付认知模块,业界研究了良久,目前还不知道精确的做法是什么。
我们现在对付这个部分能够做到什么程度也不是很清楚,不过,我们还是要组织力量往这个方向走。

问:现在人工智能领域,包括腾讯优图实验室卖力人贾佳亚教授等研究者都在研究多模态这一技能,他还在近期的演讲中提出了“多模态是人工智能发展的未来”的不雅观点,您若何看待这一不雅观点?

俞栋:我认为该当说多模态是未来的一个主要方向。
人工智能是一个很广泛的观点,实在我们到目前为止,可能也只是理解到它的一点皮毛,包括认知推理、因果推理到底是怎么回事,机器的泛化能力为什么这么弱等这类根本性问题,我们现在都还没有搞明白。

通往通用人工智能的这条路到底是怎么样的,大家都还处于一个探索状态,以是强化学习、多模态交互等都是通往通用人工智能的一种主要的考试测验,但不是全部。

在多少年后,说不定大家还会创造其余某项技能才是真正能够实现通用人工智能的技能。

学术研究经历

问:仅就学术而言,您的简历就已经非常丰富,是首次将深度学习技能运用在语音识别领域的研究领头人之一,与 Geoffrey Hinton、邓力等人都有过深度互助,无论是论文、专著还是研究成果方面,表现都非常突出,那您一开始是基于若何机缘选择语音识别这一研究方向的呢?

俞栋:我小学的时候看过一本课外书,叫《奇异的机器狗》,现在里面谈到的很多东西都已经实现了,包括机器能够听懂人说的话,可以跟小朋友交互、帮他们办理学习问题,还能够带小朋友去玩,等等。
因此实际上,我在小时候就对这些智能机器人产生了兴趣。

而真正与语音识别这个方向打仗则是在大学本科期间。
我本科在浙大念自动掌握专业,当时就读的班级是浙大设置的一个分外的班级,叫做「稠浊班」,进入这一班级的都是当年入学新生中最好的一百个人。
这个班的老师将我们这些学生当做将来专门的研究职员来培养,以是我们一入学就开始关心「科技国家队」的观点。

大学三年级的时候,我们便进入课题组做研究,当时恰逢人工智能发展的小高峰期(1989 年~1991 年),个中紧张有两个比较热门的方向,一个是专家系统,像我当时的学长吴朝晖(现任浙大校长)在这个方向上的研究事情比较多;另一个方向便是当时刚刚开始热起来的神经网络,我当时的一个方向便是神经网络。

本科毕业后,我打算去中科院,由于当时在大家的认知中,中科院便是科技国家队。
由于本科专业是自动掌握,以是便去自动化所找导师,在此过程中创造了研究方向跟我的兴趣比较同等的黄泰翼老师,他研究的是语音识别。
比较巧的是,我在「稠浊班」的学长徐波(现为自动化所所长),当时也在黄泰翼老师那里读研。
以是我末了就去黄泰翼老师那里读研,开始进入语音识别这个研究领域。

问:实际上在深度学习早期阶段,这一方法实际上并不被看好,您是在若何的背景下开始研究深度学习的?

俞栋:正如我前面提到,我刚开始打仗神经网络的时候,神经网络是当时人工智能的一个热门研究方向之一。

后来我到黄泰翼老师那里读研究生的时候,黄泰翼老师以及其实验室的其他老师也采取神经网络的方法来做语音识别,以是我在自动化所的硕士论文,便是采取神经网络的方法做语音识别。
这就为我之后将深度学习引入语音识别任务的一系列事情奠定了根本。

问:今年,Hinton 等深度学习三巨子摘得 2018 图灵奖,而深度学习给人工智能领域带来的变革性影响早在前几年就已经发生了,您是否认为这是给深度学习的一份迟到的名誉?其余您若何评价这三位研究者的事情?

俞栋:我认为基本上是应时的。
由于科学发展中的很多进展,在当时刚出来的时候,该领域的人很丢脸清它们的影响到底有多大,一样平常都有一个认可延后期,有的可能只须要几年,有的乃至要等到发明人去世后这项成果才能被认可。
以是我认为他们得到这项名誉,还算是比较应时的。

首先,他们很早就开始研究深度学习,我大学期间首次打仗到这项事情之前,他们就做了很多铺垫性的事情;其次,他们在这个方向上坚持了良久,纵然在低潮期间,他们依旧在坚持,这都是非常值得我们研究者学习的品质。

问:将深度学习技能运用于语音识别是否是您最具代表性的事情?之后在语音识别这一领域您有哪些紧张的研究方向?

俞栋:我认为这是一项比较有代表性的事情,当然我们在这个研究方向上做了一系列事情,因而对这个领域起到了一个比较大的推动浸染,如果只是单项事情,推动浸染也就没有这么大了。

目前我们比较关注的一个研究方向是多模态,这是一项涵盖视觉、声音、符号措辞、嗅觉和触觉等信息的技能,而语音部分干系的如语音识别、语音合成、语音增强、语义分离、声纹识别等技能,在多模态中都有用到。

从微软研究院到腾讯 AI Lab

问:学术以外,您在工业界的履历也非常丰富,2017 年 5 月份,您离开微软研究院加入腾讯 AI Lab,在事情内容以及承担的角色方面,有若何的转变?

俞栋:原来在微软研究院任职的时候,相对来说会更加专注自己的研究方向和技能层面的东西。
加入腾讯 AI Lab 后,我承担的角色不再是纯技能研究型的,除技能研究外,还须要扮演管理者的角色。

相对来说,刚开始比较难适应的难点有两个:一是自己要花很多韶光在管理方面,做技能的韶光相对来说就少了,须要我找到更好的平衡;二是由于我卖力的团队在西雅图,跟总部这边由于时差等缘故原由,晚上的很多韶光须要和海内开会,晚上可自由支配的韶光比在 MSR 时少了很多。
为了减少沟通问题,我增加了到中国实验室的韶光。

问:目前,海内科技巨子实在都已经先后创建了人工智能干系的实验室,您若何看待腾讯 AI Lab 在个中的位置?

俞栋:现在这些企业都成立了人工智能实验室,招了很多很强的科学家,我认为这是一个好的趋势,对全体 AI 的发展会有很好的推动浸染。

相较之下,腾讯 AI Lab 稍有不同的地方在于,我们的研究跟产品的紧密程度,可能没有其他实验室那么高。
其他公司的实验室更像是一个工程院,倾向于将一些论文中的技能复现,然后落地到产品中。
而我们则更看重是否能够发展前沿技能,跟其他企业的实验室的侧重点不完备一样。

问:您带领的团队对学术界在语音识别领域的进展的关注度如何?除了语音之外,您的团队还关注其他哪些研究方向?

俞栋:我们对前沿技能非常关注
我个人每年都至少会参加一次语音干系的会媾和一次自然措辞处理的会议,同时我团队中的其他成员也都会参加干系的会议,因此学术界紧张的会议,我们基本上都有同事参加。

语音以外,我们比较关注的方向,还包括自然措辞处理、打算机视觉、图形图像学以及机器学习和人工智能技能的根本理论等。

语音识别领域的现状和未来发展

问:在工业落地方面,比较人工智能其他领域,语音识别是跑在前头的,但是目前暴露出的问题大概多,个中您认为比较严重的问题有哪些?

俞栋:实在存在的问题,说到底还是鲁棒性问题。
现在基于深度学习的方法使系统鲁棒性已经比之前好很多了,但是还达不到我们期望的效果。

现在我们的紧张做法便是增加演习语料,而演习语料目前存在采集困难的问题,并且纵然采集的语料很多,一旦机器在一个此前没有见过的完备新的 mismatch 的环境中,也无法实现太好的效果。

比较范例的例子是,现在很多语音识别器的缺点率能够达到百分之六七,即便在相比拟较喧华的环境下也能做得比较好,但是如果碰着两个人同时说话的场景,缺点率可能达到百分之五六十。
其余如果说话人的口音比较重,语音识别器的效果也不会很好。

此前我们也考试测验了很多办理方案,包括提高模型的泛化能力,做模型的自适应,目前来看,这些方案还有很大的提升空间。

问:就您看来,语音识别领域的发展经历了哪些阶段,目前处于若何的阶段,以及空想化的状态该当是若何的?

俞栋:从难易程度来划分,语音识别跟人工智能其他领域经历的阶段很相似:一开始做一些非常大略的任务,比如说音素识别、单字识别;接着是连续语音识别的阶段,隐马科夫模型出来往后,连续语音识别就变得可行,后来到了大词汇量连续语音识别;再之后是即时语音识别阶段,哀求机器能够听懂人自由谈天。

现在则是完备真实场景下的语音识别阶段,比如目前很多研究者在考试测验研究鸡尾酒会场景下的语音识别。
这也是下一阶段我们冲要破的方向,真实场景下的语音识还包括在非常喧华的环境下或者说话人口音很重的场景下做语音识别。

我认为,机器的空想化状态该当是能够比人识别率更高。
打算机在未来某一天,该当是能够在各个场景下的识别率都比人更高的。

问:未来三到五年,语音识别领域可以寻求打破的方向或者说技能有哪些?

俞栋:我认为未来三到五年,语音识别领域可以打破的方向紧张有三个:第一是多模态;第二个是具有更强、更快自适应能力的模型;第三,类似鸡尾酒会场景下的语音识别也会是一个可以探索的方向。