中国科技“亮剑”!十年来AI领域项目首次染指国家科技奖一等奖_技巧_语音
就在昨天,2023年度国家科学技能大奖一出炉,直接登上了热搜榜首。
武汉大学李德仁院士、清华大学薛其坤院士得到了科技界的最大声誉——国家最高科学技能奖。
此外,还有一大批贡献卓越的科学家和标志性成果得到国家科技褒奖。
综合来看,今年整体的获奖情形现状是:
根本研究领域重大成果持续产出,自然科学奖连续9次产生一等奖。
中青年科技人才成为我国科技创新的主要力量。
三大奖通用项目中,45岁以下完成人占比40%旁边。
国家自然科学奖中,45岁以下完成人超过一半。
值得一提的是,2023年度的国奖,百度、阿里云等企业纷纭参选,但唯有科大讯飞荣获国家科学技能进步奖一等奖。
这是深度学习引发新一代AI浪潮以来,过去十年人工智能领域得到的首个国奖一等奖。
科大讯飞作为第一单位,获奖项目是《多语种智能语音关键技能及家当化》
这也是科大讯飞继2002年和2011年分别得到国奖二等奖之后,时隔12年再获国奖。
不同以往,今年的国奖评比,堪称史上竞争最激烈的国奖,也是国家科技奖史上最难的一年。
史上最严、最难、竞争最激烈的一届
为什么这么说?
- 国家科学技能进步奖越来越难
宏不雅观上讲,国家科学技能进步奖越来越难,与多次改革息息相关。
自2017年以来,***在褒奖制度和奖项瘦身方面做了改革,力度越来越大。
比如在2017年,将三大奖项由总数不超过400项减少到不超过300项,并且明确「推举制」调度为「提名制」。
2020年则提出,精简提名材料、淡化SCI(科学引文索引)论文至上、许可外国人参加评比等新的举措。
可以看到,报奖实施提名制、数量宁缺毋滥,正是国家科技褒奖制度改革的两大方向。
2020年度国家科学技能进步奖一等奖便是空缺的。
- 停息两年之后积累了大量精良成果
其余一个缘故原由便是,因2021年、2022年国奖停息报告,使得2023年度积累了大量的精良成果。
今年,受理通用项目的总数高达1261项,终极筛选通过初评总数为301项(个中通用项目243项)。
同时,初评环节的特等奖、一等奖项目只有29项(不含专用项目)。
这也就不丢脸出,2023年是国奖史上最严、最难,竞争最激烈的一届,不仅提名环节指标难拿、初评环节网评难过,而且答辩环节竞争极其激烈。
- 打算机与自动掌握组、电子与科学仪器组、网络与通信组大牛云集
而且,与打算机、电子信息、AI干系的项目比例浩瀚。
就连华为陈海波、百度王海峰、曙光历军等科技大厂的AI大牛们,纷纭现身牵头项目参与评比。
详细来说,在今年评比形式审查阶段中,个中信息领域干系的科技进步奖共有86项。
个中,打算机与自动掌握组45项、电子与科学仪器组28项、网络与通信组13项。
经由初评之后,仅剩下了5个项目,得到了科技进步奖一等奖(个中打算机与自动掌握组2项、电子与科学仪器组2项、网络与通信组1项)。
看得出来,和过往的情形类似,拿奖的以学术机构和央企居多,民企非常罕见。
科大讯飞能够脱颖而出,足见一家科技企业具备国际领先的科技硬实力,并拥有着强大的AI内核和深厚的AI功底。
十年磨一剑,中国AI「亮剑」
回看这家公司的创业进程,讯飞自成立以来便在AI领域深耕25年,一贯坚持技能顶天、运用立地,将干系人工智能技能和家当都做到第一。
从最初专注于中文语音合成,到逐步拓展至语音识别和语义理解领域;从聚焦中英双语,到涵盖多种措辞;从单一的语音技能,到领悟图像处理和多模态感知,实现了多维度的信息表达;再到大模型技能与国际领先水平的对标。
这条充满中国聪慧的自主研发之路,不仅彰显了讯飞的技能实力,更冲破了国外企业在该领域的长期垄断地位。
多语种智能技能,持续攻关近10年,其紧张技能得到几十项天下冠军:
在语音合成技能上,从2006年到2019年,讯飞连续14年得到Blizzard Challenge 国际语音合成大赛冠军;在语音识别技能上,2016-2023年,连续得到国际多通道语音分离和识别大赛CHiME四连冠,2021年在国际低资源多语种语音识别竞赛OpenASR中得到所有15个语种受限赛道和7个语种非受限赛道的冠军;在多语种翻译技能上,讯飞在2021-2023年连续三届得到IWSLT(国际口语机器翻译比赛)冠军。这次,科大讯飞之以是能在一众刁悍的对手中「杀出重围」,正是源于这些年的持续攻关、厚积薄发。
其获奖项目「多语种智能语音技能」,可以说是中国AI科技的「亮剑」之作。
它由科大讯飞联合中科大、清华等顶尖院校,以及华为、中国移动等有名企业共同研发,是多个语种的语音识别、语音合成、机器翻译凑集为一体的综合技能,冲破了科技封锁,办理了「卡脖子」难题。
目前,该技能支持的语种数量达到了69个,同时,还覆盖了维、藏、蒙、哈、朝、壮、彝等24种紧张中国方言。
详细来说,项目提出了四个方面的重大技能创新:
1. 繁芜语音旗子暗记的解耦建模语音识别中,最有寻衅性的场景便是远场、噪声、多人语音混叠下的识别,这是业内有名的「鸡尾酒会难题」。
为了占领这个问题,科大讯飞提出了多通道语音旗子暗记时空分离建模方法,利用自适应语音分离算法估计多个说话人的帧级声纹表征,并结合后端语音任务的反馈,迭代辅导前端,实现多个说话人和噪声在空间上的精确分离。
此外,为理解耦语音旗子暗记中说话内容和噪声,科大讯飞还提出了内容、韵律、音色以及语种多维度属性解耦表征方法,使得繁芜场景下语音识别准确率得到重大打破。
2. 多语种共享建模面对国外科技封锁,演习多语种、小语种模型,还有一个非常棘手的问题便是知识匮乏、演习数据稀缺。
科大讯飞的思路是将小语种按照语族进行分类,找到同类语种的共同规律,再进行剖析、建模和演习。
基于这个思路,他们从头设计了多语种通用音素体系RGP和基本措辞单元SE,实现多语种统一音素韵律体系的构建。
演习过程中,将同语族的多个语种放在一起进行共享建模和基于元学习的共同预演习,终极显著提升了小语种语音系统性能。
3. 语音语义联合建模在繁芜运用处景下的语音交互、语音翻译技能始终有一个技能难题,便是难以理解深层次的语义,尤其是涉及到专业领域。
如果不能在语音技能中结合对语义的理解,势必会拉低准确率。为此,科大讯飞提出了语音语义互增强的鲁棒口语理解技能以及多源知识增强的可信文本天生技能。
前者实现了语音语义空间对齐的统一编码网络,利用多任务联合演习的技能使两个方面相互增强;后者构建了基于弱监督数据的信息检索模块,并用交叉把稳力领悟在模型中,提升专业词汇与知识引用的准确率。
4. 国产异构硬件平台演习及推理加速在科技竞争日益激烈的情形下,自主创新是一个主要计策任务。
然而,构建国产化算力平台便是一个大难题,而将演习和推理迁移到国产硬件设备的过程中,许多模型也面临着性能低、适配难等困境,算力与国际主流芯片存在差距。
为了彻底办理「卡脖子」问题,科大讯飞提出两项技能:硬件亲和的变长输入算子领悟,以及联合统一的量化感知演习。
前者将动态张量算子通过软硬件协同优化进行自动领悟,更适宜语音这种变长输入的模态,性能优化到了国际主流芯片的同等水平。
后者通过多硬件联合的量化打算仿照,大大降落了模型的支配难度。只需完成一次演习,即可实现跨硬件平台的「一键支配」。
以干系的技能打破为基石,科大讯飞勇担重任,目前已建成了5个国产化集群,在语音合成、识别、翻译、交互等运用上的日做事达到8.73亿次。
科大讯飞还与华为互助,联合攻关大模型国产化算力底座核心难题。目前已建成首个万卡全国产算力平台「飞星一号」,补充了国产超大模型演习平台的空缺。
引人瞩目的是,讯飞在语音家当海内市场霸占率稳居第一,且在环球多语种市场占比8.1%,并持续提升。
这得益于项目构建了自主可控的多语种家当生态:
首创引领智能语音家当,在智能软硬件方面,首创智能翻译机、智能办公本、智能录音笔等智能硬件新品类;在会议、办公等场景,其做事遍及环球50多个国家和地区,支持了超过40万场会议,个中包括全国两会;在普通用户侧,联合中国移动的电视语音遥控做事超1亿家庭。
中国制造出海背后,也有科大讯飞多语种技能的支持。支持各主流手机厂商累计激活设备超10亿台,有效办理华为等厂商出海的多语种「卡脖子」问题;智能汽车方面,支持奇瑞、一汽、长安等车企超200万套订单出海。
在全天下,科大讯飞每年供应翻译做事51.5亿次。
不仅如此,讯飞还发布了「多语种语音云」平台,承建智能语音国家新一代人工智能开放创新平台,开展了「听见AI的声音」等多项***行动。
下一步,智能语音+认知大模型
在通用人工智能时期,科大讯飞多语种智能语音关键技能中的创新和大模型技能相互补充、相互促进。
今年1月30日,基于语音属性解耦、语音旗子暗记时空分离等技能打破,科大讯飞首次发布了「星火语音大模型」,取得了国际领先成果。
在37个主流语种效果上,星火性能显著超过了OpenAI Whisper V3。在24个紧张语种中,Whisper v3均匀识别率为82%,星火语音大模型达到了90%。
紧接着,4月26日,科大讯飞再次首发「多情绪超拟人合成」功能,还可以一句话实现声音复刻。
这让AI像真人一样,具备更加丰富的感情情绪、有生动的口语表达,还有笑声、有语气、有情调等等。
大模型+语音技能的结合,成为AI未来发展的一大趋势。
LLM(大措辞模型)加持的语音技能,可以在繁芜语义理解、长文本建模能力,进一步提升语音识别、合成和翻译的效果。
与此同时,基于LLM强大的语音理解、知识问答、多轮对话、多模态建模能力,扩展了智能语音技能的利用场景和运用代价也得到大幅提升。
在语音同传、自动客服、辅学答疑、虚拟员工、陪伴机器人、做事机器人等赛道上,这项技能将会来带巨大家当机会,并加速通用人工智能时期到来。
顺便提一句,6月27日,讯飞星火V4.0也将正式发布,底座能力全面对标GPT-4 Turbo。
与此同时,星火语音大模型也将迎来全新升级。
未来,在科大讯飞国际领先的智能语音技能根本之上,讯飞星火将进一步向着「解放生产力、开释想象力,为每个企业和每个人打造专属AI助手」的更大愿景,持续攀登、持续进步,用人工智能培植美好天下!
本文系作者个人观点,不代表本站立场,转载请注明出处!