音频审核作为内容安全产品的一个模块,在内容审核中既须要支持视频中的音频审核,还须要能支持单独的音频审核,本节将跟大家一起谈论关于音频审核的产品设计与运用。

AI应用实例(三):音频审核_内容_音频 智能问答

一、背景

随着各种各样的内容类产品发展,当内容管理不到位时,就随意马虎触犯到国家对内容监管的的政策。

如何避免违规内容的传播可以说是各大内容厂商最关注的环节之一。

因此,对内容的管理,都须要进行审核到位,但是如果纯靠人工审核,估计像号这样的资讯平台,一天得有上万人审核了。

目前各家对内容都会接入内容审核平台,基于人工智能技能实现内容审核,个中根据素材维度可以分为视频审核、文本审核、图片审核和音频审核。

从审核内容角度看又包括色情、涉政、图文违规、暴恐、违禁、广告等。

本文将选择音频审核的维度展开谈论。

二、关键技能

关于音频审核中的关键技能,我们可以从两个方面进行理解,分别是“有语义”和“无语义”。

1. 有语义类型

有语义类型是指待审核的内容中有明确的语义信息。

这里文本审核一样平常可以先经由ASR识别后,转成文本信息进行审核,以是会涉及到以下技能。

语音识别:通过ASR技能将音频转换为文本信息;语种识别:针对部分小语种或者方言进行判别,识别后,再经由语音识别转换为笔墨信息;NLP技能:针对语音识别后的笔墨信息进行处理,识别违规内容;详细的可以包括广告词文本识别、违禁词识别、辱骂词汇识别等。

2. 无语音类型

无语义类型识别是指音频内容中不含语义信息,以是无法通过ASR+NLP进行识别处理。

紧张包括娇喘、呻吟、ASMR 等没有明确措辞含义的音频内容。

直接供应提取音频的声纹特色进行分类识别,判断是否违规。

3. 分外的类型

这里紧张是指违禁歌曲识别,一样平常这样的违规内容虽然包含了语义信息,但是可能直接从内容信息上是无法判断的。

以是须要结合声纹识别+音频检索的技能进行来识别,首先构建违禁歌曲库,然后再根据音频声纹特色进行识别并检索。

如果涌如今曲库中则判断违规,否则放过。

三、产品设计1. 运用处景

(1)场景:常见的须要运用到音频审核的场景有语音谈天室、视频直播间、语音广场、FM电台、音频文学等都须要采取音频审核担保内容的安全性。

(2)审核内容

涉黄审核:色情、低俗、腌臜、娇喘等识别;广告审核:手机号等商业推广内容识别;涉政审核:涉政人物、反动分裂、胆怯主义等违规音频;违禁审核:毒品,赌钱,违禁品等违禁内容。

注:实在音频只是一个载体,以上审核的内容实际上视频审核也会涉及。

(3)场景发散

这里多发散下思维,由于目前各个内容审核厂商已经基本是同质化竞争了,以是产品的后续要想连续保持竞争力。

一方面是技能能力的迭代加强,另一方面也是须要进一步拓展场景。

比如是否支持AR内容的审核,又或者跟当前元宇宙结合,是否开始研究将来元宇宙内的信息审核呢。

2. 业务流程

这里从宏不雅观点的角度陈述产品的业务流程,详细的细节可以互换,不在文章中赘述,业务流程中紧张包括三块。

数据+预处理:通过接入待审核的内容,再进一步做预处理,包括分段等操作;模型处理:审核的核心,通过输入预处理后的数据,进行AI剖析,输出机器审核结果,包括确认违规、疑似违规和未违规;人工复审:对疑似违规内容进行复审,同时也对违规和未违规的内容抽样审核,只管即便确认判断的准确性,同时在这一步也可以将人工复审出来的badcase做数据回流用于算法升级迭代。

注:在实际业务场景中,一样平常会考虑是先审核再内容发布还是先发布再内容审核。

这里就须要根据业务进行判断,由于这同时涉及到内容韶光(希望抢占热点)和风险的制约。

一样平常可以考虑将违规风险很低的内容做先发后审(但是要供应及时下架的能力,避免涌现扩散风险),比如PGC内容。

3. 产品功能设计

本节的产品功能设计紧张从能力平台角度出发进行讲解,至于业务结果输出后涉及到的业务系统这边不做剖析。

一个比较完备的音频审核产品可以从以下几个角度进行设计。

(1)功能接口:供应好用的API和SDK能力,包括数据要求剖析、数据结果查询、规则定义接口(比如添加违规词等)等接口。

在设计时,须要设定好字段的支持力度,比如对付要求时要支持URL,同时是否须要支持音频审核模板(模板这里是指一段音频全部审核,还是根据模板中选定的审核维度进行审核,比如只审核涉黄)。

(2)可视化界面:建议同步供应可视化界面便于接入的用户进行数据查看,可视化界面不仅可以提高用户体验,也可以赞助用户进行产品利用。

一样平常可视化界面可以包括以下几点。

音频剖析:除了接口外,用户可以在可视化界面上传音频文件进行剖析,剖析后可以查看剖析结果规则设定:支持用户自定义设定违规的内容,比如设定违规广告词、涉政敏感词等;数据统计:可以包括两个部分,一部分是统计数据剖析的量级,以及剖析成功失落败的次数等;另一方面以违规类型进行统计违规次数,比如某段韶光内广告违规发生了多少,涉黄内容发生了多少等;

注:除了上述三点,还可以支持用户管理,比如用户可以在系统中创建用户账号,支持不同业务系统利用等。

4. 评估指标

评估指标须要考察两个方面。

违规识别准确率:统计机器识别为违规并且人工复核确认违规的数据量/机器识别违规的数据总量;违规识别召回率:统计机器识别为违规并且人工复核确认违规的数据量/实际存在的违规数量。

音频审核的发展对音频市场扩大可以起到很好的赞助浸染,对内容发布的监管可以实现降本增效。

但是在实际利用过程中,我们还须要思考业务运用处景,针对场景进一步迭代优化技能,比如车载场景的音频内容是否可以很好审核呢。

目前还存在很大的难度,由于车载场景的音频随意马虎受到很多噪声的影响,以是不利于识别。

因此,总的来说,对付产品,须要能够结合业务做到场景可控,让AI真正发挥浸染。

本文由@Eric_d 原创发布于大家都是产品经理,未经容许,禁止转载。

题图来自 Unsplash,基于CC0协议。