近日,国际声学、语音与旗子暗记处理领域顶级会议ICASSP举办的 2022 ADD寻衅赛落下帷幕,贝壳人工智能技能中央语音团队从环球百余支军队中脱颖而出,在“语音攻防对抗”赛道“天生”和“检测”两项任务中均斩获桂冠。

夺得两项第一、三篇论文被收录丨贝壳AI团队亮相顶级国际会议ICASSP 2022_语音_贝壳 智能助手

ICASSP(International Conference on Acoustics, Speech and Signal Processing)是由IEEE主理的旗子暗记处理及其运用方面的顶级会议,在环球具有广泛而威信的学术影响力。
个中,语音深度合成鉴别寻衅赛(The First Audio Deep Synthesis Detection Challenge, ADD 2022),是首个针对语音合成鉴别问题的国际寻衅赛,由中科院自动化所陶建华研究员与新加坡国立大学李海洲教授联合发起,来自中国、美国、俄罗斯等15个国家的120余支有名AI研究军队参赛。

本次ADD寻衅赛分为低质量虚假语音检测(Low-quality fake audio detection, LF)、部分虚假语音检测(Partially fake audio detection, PF)和语音攻防对抗(Audio fake game, FG)三个赛道,贝壳AI语音团队参与了“语音攻防对抗”赛道,该赛道分为天生和检测两项子任务,个中,天生任务的紧张目标是天生虚假音频对检测系统进行攻击,检测任务则是尽可能的从语音数据中检测出虚假语音。

在天生任务中,贝壳AI语音团队提出了一种时域对抗的语音转换系统。
全体系统包括语音转换(VC)模块和时域对抗后处理模块。
语音转换系统紧张基于fastspeech-vc实现。
演习阶段,原始音频通过瓶颈特色提取器(BNF)得到去掉说话人信息的瓶颈特色,该特色作为VC模型的输入,输出为梅尔谱特色,说话人信息用于掌握模型天生特定音色。
末了,HiFiGAN声码器将梅尔谱特色映射为时域旗子暗记。

时域对抗后处理模块紧张包括残差天生网络和目标说话人声纹检测(ASV-TS)模型。
残差天生网络输入为音色转换后的时域音频,通过对预演习好的ASV-TS模型进行白盒攻击天生残差扰动旗子暗记,该扰动与转换音频叠加即得到处理后的音频。
结果表明,该方法天生的音频,欺骗能力显著提升。

自动说话人验证系统(Automatic Speaker Verification, ASV)已运用于各种场景,同时语音天生、语音转换以及录音回放等手段对ASV系统造成严重威胁,鉴伪系统紧张用于判别对ASV的攻击行为。

在检测任务中,贝壳AI语音团队以创新性的神经网络拼接方案来搭建音频鉴伪系统,该系统紧张基于Resnet-34、 Multi-Head Self-Attentive (MHSA)池化层和两层分类网络实现,在两层分类网络中利用MISH激活函数替代了传统的RELU激活函数,模型构造如下图所示:

演习阶段,采取频谱扰动,音频编码转换,谱增强等方法对数据进行处理后,提取80维LFCC特色作为模型输入。
推理阶段,模型利用泛化性更好的第一层全连接层的输出作为分类特色,利用神经网络缝合的办法将第一层全连接层与分类层连接,终极输出预测结果。
结果表明,鉴伪模型在各种假造音频中具有更好的鲁棒性。

此外,贝壳AI语音团队提出的基于多模态语音交互的多系统联合唤醒方法还在ICASSP举办的“基于多模态信息的语音处理(MISP)”国际寻衅赛的第一赛道——基于多模态信息的语音唤醒任务中取得第三名的佳绩。
在两项寻衅赛中,贝壳的三篇比赛论文均被ICASSP 2022认可与收录,将在ICASSP2022大会期间与全天下的科研事情者分享和互换技能方案,进一步促进学界中的理论发展。

贝壳AI语音团队是贝壳人工智能技能中央专注于智能语音技能的产研团队,研究范围覆盖语音识别、语音合成、语音唤醒、声纹识别、声音事宜检测、语音剖析等语音干系技能。
目前已在智能家居、智能客服、做事管控等多个业务场景实现技能打破与落地。