刘聪:代表人工智能第三次浪潮的快速成长这是中国人的原创_语音_技巧
不雅观察者网·心智不雅观察所日前与科大讯飞研究院院长刘聪进行了一次互换,谈论了科大讯飞最新的语音技能进展、现有语音技能与大模型的结合、国产芯片及生态培植等问题。在对话中,刘聪提到了讯飞现有多语种智能语音技能的领先上风,目前已经运用在多个产品中,支撑中国智造出海。讯飞采取国产芯片做语音模型演习,难度很大,事情开展非常艰巨,刘聪呼吁各个企业联合培植更完善的软件生态。
项目紧张完成人代表在领奖后合影
对话全文如下:
心智不雅观察所:科大讯飞这次作为第一个完成多语种智能语音关键技能及家当化的单位,得到了国家科学技能进步奖一等奖。据闻,这是过去十年人工智能领域首个一等奖。请您总体上先容一下此项目的基本情形,它的背景和意义。
刘聪:我们这次得奖项目的核心是智能语音技能,也是讯飞的初心。在这个项目历经的十年间,深度学习领域发展迅速,也代表着人工智能第三次浪潮的快速发展。在这一背景下,这次也是过去十年人工智能领域首个国家科学技能进步奖一等奖。
智能语音领域对我们一贯很主要。过去十年里,我们一贯强调语音作为人类最自然、最便捷的互换办法,是万物互联、人机交互的关键入口。
在人工智能领域里,多语种智能语音广受关注。讯飞虽然是从中文语音技能起身,但我们在过去十年里逐步拓展到更多语种以及方言领域当中,这是一个非常主要的超过。
国家科学技能进步奖紧张考量两大方面,一是提报项目须要有核心技能创新,代表中国从技能原创角度在世界上取得领先。另一方面,与其他奖项不同,国家科学技能进步奖特殊强调提报项目的技能创新能否带来大规模的家当化落地。
从技能创新上来看,语音领域涉及合成、识别等技能,本项目紧张针对智能语音关键技能家当化中占领了多项技能难题,例如面向很多繁芜场景时,会涌现语音识别听不准、语音合成不自然、口语理解歧义等问题,以及当我们从中英文向多语种拓展、走向环球化的时候,涌现数据资源稀缺的问题。在持续攻关中,我们提出了四个方面的关键技能创新:繁芜语音旗子暗记解耦建模关键技能打破、多语种共享建模关键技能打破、语音语义联合建模关键技能打破、语音语义联合建模关键技能打破、国产异构硬件平台演习及推理加速关键技能打破。通过这些技能创新,我们办理了刚刚所说的技能难题,实现了在多个行业领域和智能设备上的运用落地。
总结来说,本项目的意义,第一在于首创引领了我国的语音家当,支撑智能制造家当出海和升级。
第二,通过支持多措辞互通,助力民族联络,促进环球语音措辞互通,帮忙“一带一起”培植。在这个过程中,我们很好支撑了北京冬奥会和冬残奥会、进博会、博鳌论坛等国家重大活动。
第三,我们一贯强调自主可控,本项目全体构建了自主可控的多语种智能语音技能,以及环球的家当生态。
第四,我们认为技能也要有温度,以是本项目里面的干系技能也持续助力***,关注关爱我们的弱势群体和分外人群。
心智不雅观察所:我轻微补充问一下,叨教此项目的发起韶光大概是什么时候?讯飞虽然是第一完成单位,但获奖团队不止是讯飞这一家。叨教获奖团队的构成如何?
刘聪:这个项目开始韶光大概是在2012年旁边,至今差不多是一个十年旁边的周期。
除了讯飞作为第一单位牵头,过去十年里在该项目上与我们有紧密互助的还有一些科研机构,如中国科学技能大学、清华大学,讯飞与这两所高校都有联合共建的实验室;还有家当链上的干系单位,如华为终端有限公司、中移(杭州)信息技能有限公司、讯飞医疗、讯飞智元等。
心智不雅观察所:语音识别研究当中有一个非常有寻衅的问题名叫鸡尾酒会效应,叨教讯飞是怎么打破这个难题的?然后,能否用一些比较普通的比喻来向"大众年夜众阐明一下个中的事理。
刘聪:鸡尾酒会是语音领域一个非常具有寻衅性的难题,谈论的是在繁芜环境下分辨声音种类的问题。人的听觉系统非常强大,例如你如果参加一个鸡尾酒会的话,周围非常吵闹,酒会里有非常多的噪声、发言声、音乐声以及羽觞碰撞的声音。此时,如果你想听清楚谁在和你说话,你会将你的听力系统集中过去,在周围很吵的环境下专注于某一个特殊定向的人发出的声音,这是人类所具备的一个能力。
在我们做语音识别、语音合成技能时,若要衡量语音识别系统的利害,就要跟人的水平去做比拟。在鸡尾酒会难题里,由于噪声很多,以是对机器来说进行精准的语音识别是非常难的。我从学生时期起就在研究通过单点技能来降噪,此后也考试测验过通过多麦克风阵列来提升全体前真个效果。虽然做了很多的事情,但是都只是在循规蹈矩,很难彻底办理这样的问题。
这次得到国奖的项目中第一个创新点——繁芜语音旗子暗记解耦建模关键技能打破,个中有两项技能能够比较好地办理鸡尾酒会问题。
我们在降噪里面的一个关键问题是要把语音里面的人声和非人声解构出来,这就叫解耦。对语音来说非常困难,由于语音是一个一维旗子暗记。在这个一维旗子暗记当中包含了很多的信息,如人声、噪声等。乃至如果再进一步细化,可能还有人声里面的说话人声音,及其音色、内容、性别等信息。
为理解决这个问题,我们首先基于深度学习的框架,针对性地对语音里每一个人的每一种属性做了针对性的建模。建模之后,我们就可以将刚才所说的噪声、人声的各种属性比较清楚地显示出来。普通来讲,我们可以更加风雅地把控语音里面原来殽杂在一起的、各种各样的属性。此后,我们就可以更好地对噪声做分离处理,也可以知道语音里的声音是跟说话人还是跟噪声的声音更靠近。
同时,如果我们用声学前端多麦克风阵列的多通道旗子暗记来采集语音的话,还可以对这个旗子暗记的韶光、空间等属性进行分离。
这样,一方面实现了人声和噪声的精确分离,另一方面,多维度的语音属性构造可以进一步地把声音里的内容、韵律、音色等处理出来,如此可以进一步地去办理鸡尾酒会问题。过去几年,讯飞连续4届参与并得到国际多通道语音分离和识别威信赛事CHiME的冠军,充分证明我们的语音识别技能打破了更加繁芜的场景。再进一步结合大模型,便是我们今年6月27日举行的讯飞星火V4.0发布会上呈现的极繁芜语音转写技能,基于讯飞星火大模型的多模态能力,现场在噪声环境下三人同时说话,正凡人耳难以听清,但我们做到了将每个人的声音较为准确分离,并且实时转写出来。
讯飞星火V4.0发布会上展示的极繁芜语音转写
作为一项技能框架的创新,繁芜语音旗子暗记解耦建模关键技能还可以再延伸一下,运用到语音合成上。在过去,语音合成须要一个人录制自己很多的声音语料之后才能进行合成。如果我们没有研发刚才所说的语音属性解耦技能的话,我们就很难把很多人的声音合成为一个合成声音,由于若将所有的声音全混在一起的话,可想而知会变成一个“四不像”。但是,当我们通过这项技能把每一个人的声音属性解耦出来之后,就可以把很多人的语音混在一起,演习一个合成的模型,并且能够分辨每个人的声音之间的一些共性和特性是什么。
此后,你如果希望仿照某个人的声音,只须要用这个人声音的特性以及干系的数据去建模即可。我们将这些属性进一步去建模、去掌握时,如果面对一些新的发声人,可能就不再须要那么多的语音。以前语音合成须要录制一个人十个小时旁边的语音,近几年只须要几分钟;目前在大模型框架之下,只须要一句话就可以了。以是,有了语音属性解耦技能,我们不仅能办理语音识别的问题,同样还可以达到对特定人更好的语音合成效果。
心智不雅观察所:本次国奖的获奖项目为讯飞研究多年的成果,而近些年面对大模型的溘然崛起,业界有声音质疑获奖项目是否被大模型的到来所颠覆。叨教您会如何回应这些质疑,并请您大略讲述讯飞将如何将大模型与国奖项目相结合。
刘聪:最早的大模型技能关注的并非语音领域,包括OpenAI的ChatGPT在内的大模型大部分是文今年夜模型,重点在于文本。
智能语音技能更多是声学层面,但以语音识别为例,语音转变成笔墨的过程中牵扯到了措辞模型,即文本模型的一种。以ChatGPT等为代表的文今年夜模型,由于它的模型更大、语料更多、长文本的建模能力更强,本身能够直接提升语音识别和语音翻译等效果。
语音合成则是反方向的,从文本到语音。当我们对文本做前端剖析的时候会用到一些措辞模型的技能,以是同样也会文今年夜模型能力的提升带来更好的效果。
其次,我们也可以进一步从文今年夜模型进行延伸。当有了文今年夜模型之后,业界开始研发一些其他种类的大模型。我们比较熟知的是从文今年夜模型拓展到多模态大模型,例如文生***模型、文生图模型、多模态视觉理解模型等。当然,业界也有专门研究语音大模型的,套用文今年夜模型的框架来做语音大模型的框架。
虽然这次我们的国奖获奖项目并没有直策应用大模型,但是针对语音提出的一些算法创新,可以在大模型时期进一步与语音大模型进行结合。举个例子,我们刚才提到的语音属性解耦、语音旗子暗记时空分离等创新技能,实质上是对原始的语音旗子暗记进行处理之后,得到更高质量的语音编码向量。我们可以将更高质量的语音编码向量处理之后,再输入到大措辞模型里,这样做会比直接把原始语音旗子暗记进行建模的效果更好,能够完成前真个预处理及预演习。
原来在多语种领域里,国际上做得最好的一样平常是谷歌、微软,他们有很多的多语种数据。但OpenAI在发布文今年夜模型ChatGPT之后,去年11月发布了Whisper v3的多语种语音大模型,效果非常惊人。讯飞则在去年12月开始,针对性结合这次国奖获奖项目的一些技能演习星火语音大模型,并于今年1月30日发布讯飞星火语音大模型。一经发布之后,在中文、英语、法语、俄语等首批37个主流语种的语音识别效果已超过了Whisper v3。
此外,我们之前也发布了超拟人语音合成,意味着我们与机器进行语音对话时,能听到像真人一样的合成声音,并且有感情感知能力,不论在语音合成的自然度和拟人度上都有更好的表现。
今年1月30日讯飞星火语音大模型正式发布
这个项目涉及的创新方法结合场景运用,可以在通用大模型的根本之上,进一步对语音问题有更好的建模和理解,同时也降落我们对多语种海量数据的需求。本项目的技能跟大模型之间可以形成相互借鉴、相互结合的关系。
心智不雅观察所:现在演习大模型由于各种缘故原由,须要更多地利用国产芯片。那么利用国产芯片来开展智能语音算法模型演习和推理的时候,有哪些难点须要被战胜?叨教讯飞专门做了哪些优化?
刘聪:国产化也是本项目的一大特点。我们一贯强调国产自主可控,一方面是重视自己能够节制的算法创新,另一方面看重跟硬件相结合。2019年讯飞被美国列入“实体清单”时,我们就开始做储备。目前,国产芯片本身在制造等方面被“卡脖子”,在性能上有一定的差距,而且芯片的软件生态也有待发展。
比拟图像,在本项目里用国产芯片做语音模型演习相对而言难度更大。说同样一个词,我可以说得慢、也可以说得快;在语音模型里做芯片的适配时,不同的语音长度可能会导致对算子的适配度不一样。纵然芯片在硬件参数上水平相称,但算子适配不好的情形下去直接演习模型,很可能刚开始只有百分之二三十的效率。这样同样演习一个模型,须要的韶光更长,还有些算子会不支持,实际上是很主要的一个问题。
从现在领域里比较关注的端侧适配的角度来看,一些国外的芯片在端侧利用这些模型时,量化适配做的比较好,不论什么模型在量化后丢失可控。而国产化的一些端侧芯片量化之后,积累的偏差丢失会比较大。
以是针对性能低、适配难以及语音变长等问题,项目提出了硬件亲和的变长输入算子领悟和联合统一量化感知演习技能,通过软硬件协同优化的动态张量算子自动领悟方法,实现对语音等变长输入的演习性能优化达到国际主流芯片同等水平;通过多硬件联合的量化打算仿照,达到模型单次演习后可在不同硬件平台上一键支配,办理了智能语音技能硬件平台的“卡脖子”问题。现在讯飞很多的硬件产品,例如录音笔、扫描笔、办公本、学习机等都利用了国产芯片,也基本在利用上面提到的算法,证明了有效性。
值得一提的是,由于我们被列入“实体清单”,导致这些事情的开展非常艰巨。但是如果没有这些履历和积累,我们此后就无法与华为联合攻关,在去年共同培植出全国首个国产万卡算力集群“飞星一号”,并且此后基于“飞星一号”推出讯飞星火大模型V3.5、V4.0,这些星火新版本都是在全国产平台上演习出来的。据我所知,如此大规模利用国产化平台演习模型成功的只有讯飞。
去年10月24日,“飞星一号”正式发布
以是我想强调的是,此得到国奖的项目不只是办理了历史上智能语音技能干系模型的国产化问题,更是为大模型时期的国产化能力奠定坚实的根本,让大家看到在全国产算力平台上演习对标国际顶尖水平的大模型是完备可行的。
心智不雅观察所:您刚才谈到了首个万卡的全国产算力平台“飞星一号”,我们想理解一下它目前的基本情形,叨教此平台目前表现怎么样?
此外,由于您刚刚也谈到为国产硬件芯片做专门的优化非常辛劳。作为走过这条路的企业来说,你以为国产芯片除了硬件的打算性能之外的软件生态培植方面,您还有什么呼吁和建议吗?
刘聪:从进展来说,去年底“飞星一号”整体演习性能相对付英伟达集群已提升到90%,并且之后还在不断优化提升,但是整体和国外前辈水平比拟还是有一定差距。由于模型与模型之间的适配逻辑不完备一样,有些不同尺寸构造的模型须要持续地适配,我们的重点在演习最紧张的模型上,同时持续地演习和迭代多模态模型、语音模型等。我们也将连续与华为互助,深入完玉成国产算力平台干系的事情。
我认为生态是共建的,而不是靠某一家企业的算力和人工智能。如果我们想要做到英伟达一样平常的生态和框架,能足以应对任意一个模型,就要对各种各样的构造、尺寸、模型创新有充足的支撑,以及在硬件的底层能力上持续进行演进,变得更加友好。
对此,我有其余一个呼吁:开放算子库。开放的办法有很多,例如从底层的算子库到上层的框架,以及合营一些社区的内容。目前,讯飞和华为共建的算子库大部分都已经共享到库中,未来如果有更多能够比较开放地利用算子库的企业,他们自己的很多创新算法就可以用这些算子去验证,并且会不断地去创造问题、闭环问题,这对付我们行业很关键,核心还是大家要去用。
心智不雅观察所:据理解,如奇瑞、一汽等车企也做过一些比较,认为讯飞的多语种智能语音技能效果全面领先于竞品赛轮思。华为随后也做过一个测评,称讯飞领先于谷歌。叨教在这些评比中详细比较的是一些什么样的项目?
刘聪:一样平常评测指标有两种,第一种为技能指标。技能指标一样平常须要我们要通过国际上威信的评测来做,可以理解成纯算法本身的比拼。例如我们在2021年国际低资源多语种语音识别寻衅赛OpenASR,得到了15个语种22项第一。故此,这种指标是一个较为学术性的指标。
你刚刚提到的这些测试紧张是站在产品的层面来做评估,磨练端到端效果。举个例子,在奇瑞、一汽等车企的评测里,它评估的不但是一个单点的语音识别指标,而是考虑全体汽车语音交互的流畅度、任务的信息传达准确性、功能多样性、唤醒成功率等各种各样的维度。
与我们竞争的是国际上的语音识别王者赛轮思,前身为被微软收购的Nuance。在车企的交互测试里,我们的系统效果全面领先赛轮思。同时,由于中国过去几年在汽车出海上表现精良,本项目也经历了多语种的交互效果评测,海内现在出海的汽车,其车载语音交互系统绝大部分选择的是讯飞的多语种智能语音交互系统。
华为的评测在当时紧张是考虑面向欧洲的手机出海,以是它的评测项目紧张是手机的语音助手。我们的紧张对手就不再是赛轮思,而是谷歌;华为采纳的同样是端到端产品层面的测试。当时评测了英语、法语、西班牙语、意大利语等语种,讯飞也都全面超过谷歌,终极由我们供应了全体系统。以是,在去年环球1024开拓者节大会上,华为副董事长、轮值董事长徐直军提到目前华为公司在环球所有利用的智能终真个语音技能,都是来自于科大讯飞,而且不仅仅是中文。
这些企业在产品层面的挑选都非常严格,既哀求效果又哀求效率,还有可靠性。他们却不谋而合地选择讯飞,充分证明了我们站在客户视角做出的端到端效果和体验很精良。
心智不雅观察所:我看到有提出多语种技能存在一个卡脖子的问题,叨教这个问题的由来是硬件层面还是算法层面?然后,讯飞提出了一种多语种统一音素韵律体系,并提到一个基于语族分组的共享建模技能,叨教这些技能又是一个若何的情形?
刘聪:某种程度上,这次的项目获奖与卡脖子非常干系,许多国产化项目实在都是在这个背景之下催生的。
卡脖子既包含软件和硬件。硬件在刚才已经讲述了一些,例如从2019年断供人工智能的关键芯片,后来愈演愈烈;2022年10月,美国再一次极限施压,升级对华半导体牵制,导致我们基本上无法购买任何美国生产的硬件。其余在芯片层面,随着大模型的崛起,美国也进一步加大对硬件层面卡脖子的力度。
在软件层面,美国直接掐断了多语种语音技能的支持,很多语种技能做事无法利用,使得我国每年弘大的手机、家电出口受限。当然,讯飞的多语种技能也因此受到了很大的影响,讯飞在中文语音领域环球领先,在数据方面有多年储备,但是我们当时关注的60多个语种不可能都像中文这样去投入:一是由于多语种数据资源缺少,很多语种没有那么多数据;二是纵然我们能够得到一些小语种的数据,但是每个语种的知识及措辞专家都很难找,知识匮乏。
为了应对小语种智能语音系统构建所面临的知识匮乏、演习数据稀缺等难题,除了前面提到的语音属性解耦共性技能在多语种领域有一些运用之外,我们在多语种共享建模关键技能上也实现了打破:设计了全新的多语种通用音素体系RGP(Rough Global Phone)和基本措辞单元,结合字音转换自动学习和人类措辞专家的校验反馈,让不论哪个语种的词语都能利用这套共性的音素体系,实现了多语种统一音素韵律体系的构建;
再通过基于元学习的多语种预演习和基于语族分组的多语种共享建模——普通地说,便是将不同的小语种进行分类,找到同类语种的共同规律,进行剖析建模和演习。基于以上技能创新,我们使须要的小语种数据数量大大降落,终极也显著提升了小语种语音系统性能。
心智不雅观察所:关于这次获奖,您刚才也提到和中科大的互助,从校企互助的这个角度来说,占领核心技能,促进复合人才发展,推动科技成果转化,叨教从您的角度来说,您以为还有哪些事情是可以总结或是须要连续完善,连续去进一步做?
刘聪:将本次获奖算在内,讯飞一共三次得到国家科技进步奖。每次奖项都凝集了十年旁边的积累和打破,我们自称“十年磨一剑”。
讯飞从成立之初,就非常关注产学研。当年,讯飞创始人、董事长刘庆峰等六名在校大学生加上十二名员工,一共十八个人创业成立科大讯飞,我们也是第一家在校大学生创业之后成功上市的企业。如此看到,讯飞源头的核心技能来自中科大,特殊是王仁华老师建立起的我国最早的人机语音通讯实验室。除了中科大之外,讯飞也整合了源头核心技能资源,包括措辞所、声学以是及后来清华大学等,将海内涵语音方面最有上风的产学研资源全都集中。此后,我们也不断基于研究方向和许多外部实验室互助。故此,我们从创立之初到现在一贯高度重视产学研。
我们现在产学研模式与成立初期有一些变革。早期我们的家当模式更多是一个横向项目,这意味着每当企业有一个任务须要高校的创新能力时,就须要高校从原始创新的角度去办理这样的任务。但是,我们现在的问题大多源于家当里很繁芜的一些问题,办理它们也须要一个比较繁芜的家当链。以是虽然横向项目仍旧存在,但现在很多的组织办法变为和高校共同报告国家的项目。企业的问题中可能会解析出一些不同的技能难题,有的须要原始创新、适宜高校去研究;有些须要工程能力或系统性创新能力,适宜企业去完成,因此现在校企之间变成了一个更大的创新联合体观点。
多年以来,我们一贯坚持产学研,但伴随着科技创新在不同时期所要办理的问题不同,企业、高校在个中扮演的角色也一贯在变革。
那么,我们讯飞产学研的边界在哪里?从讯飞这些年的履历来讲,我们的业务部门在做“本日的事”——在产品研发过程中,我们不可能在技能仍旧是“期货”状态时就立时推出产品,产品推出时技能该当已经成熟,使得用户在利用体验之后,技能还能够持续迭代;
讯飞研究院则是在研究“来日诰日的事”。研究院会进行技能孵化,例如做出一个技能demo给大家展示,虽然还没有进入产品和运用,但是有了技能雏形。此后结合运用处景、产品的详细需求,这些技能会连续打磨迭代,直至真正运用;
高校所考虑的乃至更加长远一点,想的是“后天的事”。有些高校里的技能可能仍旧存在于论文之内,离工程化还有一定的间隔,但却代表了下一代,乃至是下下一代产品的技能可能与方向。
以是,我们须要分配好我们的产学研资源,在企业我们强调技能的运用落地,在研究院里完成技能的预研的孵化,在学校里探索布局下一代前瞻技能。
讯飞研究院上一任院长胡国平曾经提出过一个理念:台阶的主要性,意思是对付企业来说,如果等一个技能完备成熟之后再去布局,可能就会为时已晚;以是在技能不断进步的条件下,上一个台阶技能相对成熟,我们就要预估技能进步的未来趋势,以及能够达到的详细程度,提前布局下一个台阶里更高难度的技能和更广阔的运用处景。
打个比方,我们2010年推出了讯飞输入法,开启语音输入的时期。但大家利用语音输入法的时候一样平常是自己思考一下再说出来,这种场景下的语音识别难度显然比不上两人谈天、多人开会。虽然当时在深度学习技能的加持下,语音识别水平有了显著提升,但运用到会议场景准确率就会骤降,因此2011、2012年我们迭代讯飞输入法的时候开始思考,如何让语音识别技能拓展到访谈、会议等场景里运用。
2015年时,讯飞输入法效果已经非常不错,那一年我们在年末的发布会上又推出了语音转写技能的成果——讯飞听见,全程将发布会上刘庆峰董事长的发言进行精准的转写,实现了技能打破。
此后,我们又逐渐迭代技能,并且基于此推出了录音笔等智能硬件,讯飞听见也做事了越来越多的主要大会,并且在语音转写之外还实现了翻译等功能。今年,讯飞听见已包办事全国政协两会六周年,全面覆盖人大政协各个驻地会议三周年,讯飞听见聪慧简报系统助力了两会期间驻地的记录做事事情,同时还帮助数十家媒体的多位采访记录、高效出稿。
我们本日之以是能够达到这种水平,离不开之前所设置的“台阶”。以是要基于技能发展的速率,合理地预判趋势来提前做家当转化的布局。
本文系不雅观察者网独家稿件,文章内容纯属作者个人不雅观点,不代表平台不雅观点,未经授权,不得转载,否则将深究法律任务。关注不雅观察者网微信guanchacn,逐日阅读意见意义文章。
本文系作者个人观点,不代表本站立场,转载请注明出处!