AI应用实例（三）：音频审核_内容_音频

2024-12-09 20:12:19 智能问答

音频审核作为内容安全产品的一个模块，在内容审核中既须要支持视频中的音频审核，还须要能支持单独的音频审核，本节将跟大家一起谈论关于音频审核的产品设计与运用。

AI应用实例（三）：音频审核_内容_音频智能问答

一、背景

随着各种各样的内容类产品发展，当内容管理不到位时，就随意马虎触犯到国家对内容监管的的政策。

如何避免违规内容的传播可以说是各大内容厂商最关注的环节之一。

因此，对内容的管理，都须要进行审核到位，但是如果纯靠人工审核，估计像号这样的资讯平台，一天得有上万人审核了。

目前各家对内容都会接入内容审核平台，基于人工智能技能实现内容审核，个中根据素材维度可以分为视频审核、文本审核、图片审核和音频审核。

从审核内容角度看又包括色情、涉政、图文违规、暴恐、违禁、广告等。

本文将选择音频审核的维度展开谈论。

二、关键技能

关于音频审核中的关键技能，我们可以从两个方面进行理解，分别是“有语义”和“无语义”。

1. 有语义类型

有语义类型是指待审核的内容中有明确的语义信息。

这里文本审核一样平常可以先经由ASR识别后，转成文本信息进行审核，以是会涉及到以下技能。

语音识别：通过ASR技能将音频转换为文本信息；语种识别：针对部分小语种或者方言进行判别，识别后，再经由语音识别转换为笔墨信息；NLP技能：针对语音识别后的笔墨信息进行处理，识别违规内容；详细的可以包括广告词文本识别、违禁词识别、辱骂词汇识别等。

2. 无语音类型

无语义类型识别是指音频内容中不含语义信息，以是无法通过ASR+NLP进行识别处理。

紧张包括娇喘、呻吟、ASMR 等没有明确措辞含义的音频内容。

直接供应提取音频的声纹特色进行分类识别，判断是否违规。

3. 分外的类型

这里紧张是指违禁歌曲识别，一样平常这样的违规内容虽然包含了语义信息，但是可能直接从内容信息上是无法判断的。

以是须要结合声纹识别+音频检索的技能进行来识别，首先构建违禁歌曲库，然后再根据音频声纹特色进行识别并检索。

如果涌如今曲库中则判断违规，否则放过。

三、产品设计1. 运用处景

（1）场景：常见的须要运用到音频审核的场景有语音谈天室、视频直播间、语音广场、FM电台、音频文学等都须要采取音频审核担保内容的安全性。

（2）审核内容

涉黄审核：色情、低俗、腌臜、娇喘等识别；广告审核：手机号等商业推广内容识别；涉政审核：涉政人物、反动分裂、胆怯主义等违规音频；违禁审核：毒品，赌钱，违禁品等违禁内容。

注：实在音频只是一个载体，以上审核的内容实际上视频审核也会涉及。

（3）场景发散

这里多发散下思维，由于目前各个内容审核厂商已经基本是同质化竞争了，以是产品的后续要想连续保持竞争力。

一方面是技能能力的迭代加强，另一方面也是须要进一步拓展场景。

比如是否支持AR内容的审核，又或者跟当前元宇宙结合，是否开始研究将来元宇宙内的信息审核呢。

2. 业务流程

这里从宏不雅观点的角度陈述产品的业务流程，详细的细节可以互换，不在文章中赘述，业务流程中紧张包括三块。

源数据+预处理：通过接入待审核的内容，再进一步做预处理，包括分段等操作；模型处理：审核的核心，通过输入预处理后的数据，进行AI剖析，输出机器审核结果，包括确认违规、疑似违规和未违规；人工复审：对疑似违规内容进行复审，同时也对违规和未违规的内容抽样审核，只管即便确认判断的准确性，同时在这一步也可以将人工复审出来的badcase做数据回流用于算法升级迭代。

注：在实际业务场景中，一样平常会考虑是先审核再内容发布还是先发布再内容审核。

这里就须要根据业务进行判断，由于这同时涉及到内容韶光（希望抢占热点）和风险的制约。

一样平常可以考虑将违规风险很低的内容做先发后审（但是要供应及时下架的能力，避免涌现扩散风险），比如PGC内容。

3. 产品功能设计

本节的产品功能设计紧张从能力平台角度出发进行讲解，至于业务结果输出后涉及到的业务系统这边不做剖析。

一个比较完备的音频审核产品可以从以下几个角度进行设计。

（1）功能接口：供应好用的API和SDK能力，包括数据要求剖析、数据结果查询、规则定义接口（比如添加违规词等）等接口。

在设计时，须要设定好字段的支持力度，比如对付要求时要支持URL，同时是否须要支持音频审核模板（模板这里是指一段音频全部审核，还是根据模板中选定的审核维度进行审核，比如只审核涉黄）。

（2）可视化界面：建议同步供应可视化界面便于接入的用户进行数据查看，可视化界面不仅可以提高用户体验，也可以赞助用户进行产品利用。

一样平常可视化界面可以包括以下几点。

音频剖析：除了接口外，用户可以在可视化界面上传音频文件进行剖析，剖析后可以查看剖析结果规则设定：支持用户自定义设定违规的内容，比如设定违规广告词、涉政敏感词等；数据统计：可以包括两个部分，一部分是统计数据剖析的量级，以及剖析成功失落败的次数等；另一方面以违规类型进行统计违规次数，比如某段韶光内广告违规发生了多少，涉黄内容发生了多少等；

注：除了上述三点，还可以支持用户管理，比如用户可以在系统中创建用户账号，支持不同业务系统利用等。

4. 评估指标

评估指标须要考察两个方面。

违规识别准确率：统计机器识别为违规并且人工复核确认违规的数据量/机器识别违规的数据总量；违规识别召回率：统计机器识别为违规并且人工复核确认违规的数据量/实际存在的违规数量。

音频审核的发展对音频市场扩大可以起到很好的赞助浸染，对内容发布的监管可以实现降本增效。

但是在实际利用过程中，我们还须要思考业务运用处景，针对场景进一步迭代优化技能，比如车载场景的音频内容是否可以很好审核呢。

目前还存在很大的难度，由于车载场景的音频随意马虎受到很多噪声的影响，以是不利于识别。

因此，总的来说，对付产品，须要能够结合业务做到场景可控，让AI真正发挥浸染。

本文由@Eric_d 原创发布于大家都是产品经理，未经容许，禁止转载。

题图来自 Unsplash，基于CC0协议。