前不久,美国国家标准技术署(NIST)主办的说话人识别技术评测(SpeakerRecognitionEvaluation,SRE)公布最新榜单,作为首次并独立参赛的人工智能语音公司,声扬科技VoiceAI从25个国家、78支参赛强队脱颖,获得综合成绩并列第九名、单项第六名的好成绩;位列国内参赛企业第一。
上个月,声扬科技VoiceAICTO陈东鹏赴希腊雅典参加NISTSRE18主办的工作坊(Workshop),展示企业此次参赛的技术和方案。
在会议期间,陈东鹏和来自世界各地专注人工智能语音的同行们有深入的讨论,对于未来声纹识别的研究和应用趋势有更明晰的判断。
在他看来,深度学习拓展了声纹识别的应用边界,目前声纹领域所用到的神经网络和深度学习算法还有很大的提升空间;此外,声纹识别的后端依然被PLDA等传统处理和分类技术占据,真正“端到端”的声纹识别系统面世后,将促使声纹识别像人脸识别一样广泛应用。
以下是陈东鹏的第一手现场笔记。
声扬科技CTO陈东鹏博士在NISTSRE18希腊Workshop现场
新增16K采样率语音数据子任务
在往届比赛中,主办方只提供8k采样率的电话录音数据。SRE18比赛第一次增加16k的语音数据作为评测数据集。这样的变化,让我和同行都很兴奋。目前,8k的语音数据现在一般只用于固定电话,或者传统2G/3G手机;在实际应用中,特别是在互联网和物联网应用中的地位日渐式微。
随着智能设备和通信技术的发展,我们现在使用的绝大多数设备都使用16k语音数据,比如网络音视频、正式场合的录音(会议,访谈等)、社交平台。我们每天都在用的
转载请注明:http://www.0431gb208.com/sjszlff/1866.html