近日,中国电信人工智能研究院(TeleAI)发布业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,冲破单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等30多种方言,是海内支持最多方言的语音识别大模型。
中国电信人工智能研究院用最前沿的语音识别技能,让沟通更加自然流畅,极大办理老年人及“老少边穷”地区人们的信息做事无法触达的问题,为人们搭建一条通往AI时期的沟通桥梁。

首个支持30种方言混说语音大年夜模型宣告!中国电信人工智能研究院用AI守护方言_方言_模子 计算机

用AI守护方言,让措辞文化焕发生命力

方言是中国文化多样性的宝贝,传承丰富的历史文化内涵;方言也是不同区域文化的灵魂,凝聚人们乡情的根源,具有丰富的人文代价。
然而,很多方言却在社会经济快速发展中不断消亡,保护方言传承措辞文化已迫不及待。

AI正在为传承措辞文化注入全新生命力。
方言语料采集、记录和归纳后,需担保能被后人精确理解。
中国幅员辽阔,“百里不同俗,十里不同音”各种方言语法语音特色各不相同,传统的方言研究依赖于调查者主不雅观感知标注,人力工程量巨大且难以系统标注。
而AI能够更高效、系统地对方言进行整理归纳,对方言保护和传承意义重大。

构建高质量方言数据库,是方言保护和研究的根本。
当前,中国电信人工智能研究院已构建超30种,超30万小时的高质量方言数据库,方言数据库在丰富性和高质量等层面均居于业内前列。

中国电信人工智能研究院(TeleAI)坚持自主研发创新,在中国电信CTO、人工智能研究院院长李学龙带领下,推出了星辰语音大模型,通过超大规模语音预演习和多方言联合建模,率先实现单一模型支持30种方言自由混说语音识别,是海内支持最多方言、覆盖人口最多的语音大模型;研发团队创始“蒸馏+膨胀”联合演习算法,办理超大规模多场景数据集和大规模参数条件下,预演习坍缩的问题,实现1B参数80层模型稳定演习;星辰语音大模型也是业内首个开源的基于离散语音表征的语音识别大模型,通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率降落数十倍。

星辰语音大模型以绝对领先的性能,斩获多个国际威信赛事冠军。
在威信国际语音顶会INTERSPEECH2024离散语音单元建模寻衅赛上,凭借星辰语音识别大模型的领先技能,中国电信人工智能研究院语音团队斩获语音识别赛道冠军。
在业内有名的多方言语音识别数据集KeSpeech任务上,星辰语音大模型冲破记录,领先之前最优结果20%,以高达92.97%的字准确率刷新最优结果。
同时在NIST(美国国家标准与技能研究院)组织的Babel低资源语音识别项目电话粤语赛道上,刷新记录取得目前业内最好结果。
极佳的性能担保用户与星辰语音大模型对话,无需刻意切换普通话,也无需提高音量放慢语速,可以像和家人讲话一样自然地各抒己见。

勇担央企义务,中国电信搭建AI时期沟通桥梁

随着AI技能高速发展,人们享受着智能化、无人化做事的便利。
然而,“老少边穷”地区及很多老人,由于方言限定,正逐渐被AI时期抛弃。
中国电信武断地承担央企任务,用AI搭建沟通的桥梁,让每一个人都能享受AI时期便利。
同时,中国电信有几亿用户和丰富运用处景,天然具备数据飞轮飞速迁徙改变的上风,无疑将促进技能更快进步,更好地做事每一个人。

据悉,星辰语音大模型已广泛运用落地。
星辰语音大模型已在福建、江西、广西、北京、内蒙古等地的中国电信万号智能客服试点运用,接入星辰大模型往后,万号智能客服秒懂30种方言,自然流畅地做事用户,实现日均处理约200万通电话;智能客服翼声平台接入星辰大模型的语音理解和剖析能力,实现31省全覆盖,每天处理125万通客服电话。
此外,星辰语音大模型还落地多地市的12345平台,赋能客服职员秒懂30种方言,更自然流畅理解更多市民需求,提升沟通效率,助力政务事情智能化升级,更高效、便捷地为每一位市民供应做事。

在中国国际大数据家当展览会上,星辰语音大模型让数字人“能听会说”,数字人“数数”,声音甜美生动,与康辉同台主持,中英文随意切换,互换对话自然流畅,广受好评。

星辰语音大模型现已对外开源,携手互助伙伴及个人开拓者,开拓面向更多场景的运用,共同守护方言、传承措辞文化,助力AI普惠。
未来,中国电信人工智能研究院将持续深耕研发创新,不断提高支持方言的数量和准确度,操持建成首个覆盖全国333个地市方言和紧张少数民族措辞的语音识别大模型,切实让“老少边穷”、老年人等群体都能享受到AI时期的便利。