依图夺冠世界级声纹识别竞赛智能语音战场

来源：语言识别时间：2022/5/4

新智元报道编辑：木青去年年底才宣布进军智能语音市场，如今依图科技又攻下一城：9月初，夺冠全球声纹识别竞赛VoxSRC。依图正成为“边界重塑者”，业务愈加多元：计算机视觉、NLP、芯片、智能语音，逐渐备齐各项AI能力。

AI技术战场上，依图科技又攻下一城。

刚刚，在全球声纹识别竞赛VoxSRC（VoxCelebSpeakerRecognitionChallenge）上，依图以大幅领先的成绩夺得第一名。

去年年底，依图宣布强势进军智能语音领域，并用“识别精度创中文语音识别新高点”的技术成就作为开场，如今在声纹识别技术上亦是登顶。

这两年来，依图不断在重塑边界，业务越来越多元，一直在挑战新领域，也屡摘桂冠——在AI技术上的记录既有深度也有广度，除拥有绝对优势的起家本领人脸识别外：

视觉计算：成为“AI国家队”，依图承建“视觉计算国家新一代人工智能开放平台”。

语音识别：在全球最大的中文开源数据库AISHELL-2中，依图年时短语音听写的字错率（CER）达到3.71%，大幅刷新当时的纪录；

AI芯片：算法即芯片，重磅推出拥有世界级算法优势的云端AI芯片——求索(questcore?)；

自然语言处理：基于机器学习的NLP技术，依图医疗与合作团队在世界顶级医学科研期刊《自然·医学》（NatureMedicine）刊发题为《使用人工智能评估和准确诊断儿科疾病》的医疗人工智能成果。

计算机视觉、智能语音、NLP、芯片，依图的下一程又在哪里？

超过清华、约翰霍普金斯团队，拿下全球声纹识别竞赛冠军

所谓声纹识别就是说话人识别，根据人说话的声音，判定人的身份的技术。

VoxSRC是基于英国牛津大学两年前发布的公开声纹识别VoxCeleb数据集组织的学术界知名比赛。

本次参赛者来自中、美、法、日本等多个国家的高校与企业，包括中山大学、约翰霍普金斯大学、清华大学、法国国家信息与自动化研究所、平安科技、NEC、君林科技等。

这是依图首次且独立参与这场竞赛，参赛队伍名称为logicworld，比赛成绩大幅领先第二名，依图、第二名和第三名队伍的EER（等错误率）分别是0.98%、1.42%和1.54%。EER是判断声纹识别算法系统的综合指标，EER越小系统性能越好。

VoxCeleb数据集来自YouTube名人采访视频，含有多个不同说话人超过万段语音，时长总共超过小时。不仅数据量大，VoxCeleb还充分考虑了数据的多样性，61%的发言者为男性，并且涉及不同的种族、口音、职业和年龄。

此外，VoxCeleb的数据都来自无约束场景，比如红毯采访、会谈录音，因此音频中含有大量噪音，包括背景噪音、笑声、重叠的说话声和其他杂音，收录工具也不尽相同，有的甚至是手机拍摄的粗糙视频。

来源复杂的数据集对声纹识别技术水平的要求更高，声纹识别的高准确率可以提高采用声纹识别技术进行访问控制的系统的安全性。

VoxSRC挑战赛的另一大难点，同时也是其结果备受认可的一点，就是测试数据不含标注，也就是“盲测”，确保了比赛结果的公正与公平。

参赛团队的任务是分辨一对音频是来自同一个发言者还是来自不同的发言者，可以选择固定训练集，也可以使用无约束训练集（除测试集以外的任何数据）。

依图参加的是固定训练数据集任务，在这种情况下，参赛者只能使用赛方提供的VoxCeleb2开发集，该数据集含有来自个讲者的超过10万句话语。

深度学习拓展声纹识别边界，深耕算法的依图赢在起跑线上

此前，深度学习在声纹识别领域并不常见，从年开始，深度学习逐渐介入声纹识别，进行技术的重新洗牌。

事实上，相对于图像和NLP领域，目前声纹领域所用到的神经网络和深度学习算法相对简单，提升空间依然很大。

而依图正是拥有世界顶级算法的人工智能公司，可以说是直接赢在了起跑线上。

还有一点值得注意，这次依图参加的是固定训练集任务，而其识别精度比其他使用无约束训练集的团队还高。

目前，声纹识别的后端仍被PLDA等传统处理和分类技术占据，深度学习的介入可以促使声纹识别像人脸识别一样广泛应用。

去年年底强势进军，成为智能语音界一匹黑马！

依图科技在年底杀入智能语音领域成为一匹“黑马”。

用以宣布进军语音战场的则是技术与产业的双重亮眼成绩：

技术上，在全球最大的中文开源数据库AISHELL-2中，依图年12月时的短语音听写的字错率（CER）达到3.71%，相比原业内领先者提升约20%，大幅刷新彼时纪录。

产业上，依图联合微软推出基于Azure云服务的语音开放平台，并携手华为发布软硬件一体化的“智能语音联合解决方案”，将依图语音识别技术提供给第三方应用开发者。

那时候依图就强调语音一直以来都是该公司的