(牛畅)“这次参赛前,我们就定下了目标,一定要拿下比赛!”科大讯飞智能语音研究员孙磊对中华工商时报记者说。
近日,科大讯飞在国际说话人角色分离比赛(DIHARD-3)中摘得桂冠,是国内首次有团队在该赛事上取得冠军。此次获得好成绩突显了科大讯飞语音识别技术辨别说话人角色的能力进一步提升。
说话人角色识别实现新突破
自年以来,科大讯飞三次参加国际多通道语音分离和识别大赛(CHiME)并连续夺冠,而此次国际说话人角色分离比赛有何新突破?
“之前的比赛是给定语音边界和说话人信息,不需要你做判断,考验的是语音内容识别的准确度,而这次比赛我们是要去识别语音中哪些人在说话,分别在什么时候说话。”孙磊举例称,之前比拼的是机器能听懂说的是什么,而现在要分辨声音来源的不同。
据科大讯飞参赛团队介绍,说话人角色分离技术与生活、办公息息相关,凡是语音识别可以涉及的场景,都可以适用。
“在从技术角度构想的应用里,例如医疗场景下,医生在问诊的过程中与病人有很多互动,对话甚至会有各种干扰,在医生回访病例想要通过语音检索病情时,这项技术就能快速分辨出病人和医生的角色,帮助医生快速提取信息。”孙磊告诉记者,在未来新冠肺炎的治疗探索中,这项技术可以帮助医生提高工作效率。
但让机器分辨出不同的角色,实属不易。“在这些场景中,说话人数量不确定,多人语音交叠,对话风格随意,还有很多噪音的干扰。”孙磊介绍,DIHARD-3的比赛数据集合了不同场景的真实数据,评价指标严苛,说话人边界容忍度为0,科大讯飞联合中国科大语音及语言信息处理国家工程实验室杜俊副教授团队在四个任务排行榜上包揽所有指标第一名,获得冠军。
再添技术桂冠非一日之功
据了解,本次比赛科大讯飞团队重新梳理了技术路线,提出了多种解决思路来代替传统方案:创新性地将说话人角色分离问题当做语音分离问题来解决;将角色标签的指派问题转化为目标说话人的语音检测问题;创新性提出迭代式说话人估计算法,大幅提升了系统水平。
多年来,科大讯飞和中国科学技术大学共建语音及语言信息处理国家工程实验室,搭建产学研平台,保持开放合作的同时,始终把创新的引领作用摆在重要位置,不断开拓语音识别的前沿技术。
从实验室的博士研究生走向研究员的岗位,孙磊也切身感受到科大讯飞除了具备核心技术优势,更有持续推动产学研共同发展的创新力量。
“三年前我们团队第一次接触这个比赛时,处于摸索阶段,技术还不成熟,与国际顶尖水平还有差距,但我们从未放弃过。之后实验室一直
转载请注明:http://www.0431gb208.com/sjszyzl/3990.html