深度解析音频检测背后的技术硬创公开课雷

来源：语言识别时间：2022/10/6

网络直播行业经历了过去两年的井喷式爆发后，到现在依旧保持着持续火热的态势。但这一市场火爆的背后也一直暴露了一些问题，低俗内容屡见不鲜。显然，要解决这一问题就必须要有比人工鉴黄效率更高的手段，用人工智能技术来鉴黄就是现在直播平台通用的手段。

虽然不少企业都把目光聚焦在视频鉴黄上，但音频审核也是人工智能鉴黄技术的一部分，二者缺一不可。那在大家熟悉的视频鉴黄之外，音频检测究竟能解决哪些问题？这一技术是如何进行鉴黄的呢？

本期雷锋网硬创公开课，我们邀请了极限元智能科技联合创始人马骥为大家解读关于音频审核背后的技术。

嘉宾介绍

马骥：极限元智能科技联合创始人，曾先后就职于中科院软件研究所、华为技术有限公司，获得多项关于语音及音频领域的专利，资深软件开发工程师和网络安全解决方案专家，擅长从用户角度分析需求，提供有效的技术解决方案，具有丰富的商业交流和项目管理经验。

以下内容整理自本期公开课，雷锋网做了不改变原意的编辑：

一、音视频审核的需求现状

音视频审核主要针对互联网传播的信息进行审核，审核的内容有有害信息（涉黄、涉暴）、敏感信息。

以直播平台为例，年，是互联网直播平台爆发的一年，除了各式各样的直播形式。与此同时，也出现了大量的在线实时信息，这其中是有害信息，涉黄是最为严重的一个现象。今年，相关部门已经针对这些乱象加大了打击力度，因此基于互联网直播平台的有害信息检测成为重中之重。

以图像识别技术为基础如何进行鉴黄？在直播的时候，每个直播间会间隔一秒或几秒采集一个关键帧，关键帧会发送到图像识别引擎，引擎根据图像的颜色、纹理等等特征来对敏感图像进行过滤，这一过程会检测肢体轮廓等关键特征信息，然后对检测图像特征与特征库模型里面的特征相似度进行匹配，给予待测图像色情、正常、性感等不同维度的权重值，以权重值最高的作为判定结果输出。

基于图像识别得视频涉黄检测准确率可以达到99%以上，可以为视频直播平台节省70%以上的工作量。

还有一些是语音为主的直播节目，比如谈话聊天、脱口秀、在线广播等。视频检测所使用到的图像技术就很难在这些应用场景发挥作用，所以音频检测需要有针对性的技术手段。

除了刚刚提到的几个音频检测应用场景之外，例如网络音视频资源审核，例如

转载请注明：http://www.0431gb208.com/sjszjzl/1871.html

上一篇文章：探索AI技术传神语联助力语言服务数字化跑

下一篇文章：关注人工智能时代的语言学研究