Interspeech是由国际语音通信协会(ISCA)组织的语音研究领域的顶级会议之一,也是全球最大的综合性语音信号处理领域的科技盛会。它涵盖了语音识别、语音合成、语音增强、自然语言处理等多个领域,每年都吸引了来自世界各地的数千名学者、工程师和企业家参与交流和展示。
根据Interspeech的统计数据,有多人参与了会议,这些参会者来自63个国家/地区,其中包括中国、美国、日本、英国、法国、德国、印度等。会议共收到了篇论文投稿,其中接收了篇,接收率为30.1%。而智言科技团队在Interspeech上,有12篇论文入选,展示了智言科技团队在语音领域的强大科研能力。
Interspeech也将邀请一些国内外的优秀院校参与会议,如北京邮电大学、南京大学、香港中文大学、新加坡国立大学、剑桥大学、斯坦福大学等。
在语音技术顶会Interspeech上,智言科技首席科学家党建武教授和CEO王龙标教授有7篇论文被接收,涵盖意图识别、口语理解、声学特征、语音识别、语音分离、情感识别等研究方向,论文简介如下。
01.Rethinkingthevisualcuesinaudio-visualspeakerextraction
论文作者:李俊杰,葛檬,潘泽旭,曹瑞,王龙标,党建武,张仕良
音视频语音分离的双视觉编码器方法。音视频语音分离的目标是从混合语音中分离出目标说话人的语音信号,这需要利用视觉信息。现有的方法只用一个视觉编码器来提取视觉信息,本文则提出用两个视觉编码器分别提取说话人的身份信息和语音的同步信息,如图d所示。本文的实验结果证明,这种显式地利用身份和同步信息的方法,比起隐式地利用视觉信息的方法,能够显著提高语音分离模型的性能。
02.LocateandBeamform:Two-dimensionalLocatingAll-neuralBeamformerforMulti-channelSpeechSeparation
论文作者:付燕杰、葛檬,王洪龙,李楠,尹浩然,王龙标,张高燕,党建武,邓承韵,王飞
端到端波束成形网络利用二维位置信息实现语音分离。多通道语音分离的神经波束成形技术近年来有了显著的进步,但是,它们大部分没有考虑混合信号中的说话人二维位置线索。本文提出了一种端到端的波束成形网络,它可以仅用混合信号,通过二维位置信息来指导语音分离。该网络先估计可区分的方向和二维位置线索,它们包含了声源相对于多参考麦克风的到达方向和二维位置坐标。然后将这些线索融合到位置感知神经波束成形模块,从而可以准确地重建两个声源的语音信号。实验表明,我们提出的模型不仅在语音分离指标上全面超过基线系统,而且在空间重叠情况下也有更好的表现。
03.SDNet:Stream-attentionandDual-featureLearningNetworkforAd-hocArraySpeechSeparation
论文作者:王洪龙,邓承韵,付燕杰,葛檬,王龙标,张高燕,党建武,王飞
分布式麦克风阵列的鲁棒语音分离系统。多通道语音分离在固定阵列上已经有了不错的进展,本文提出一个适用于分布式阵列的鲁棒系统,能够应对麦克风位置和数量的变化。以前的研究通常用平均化方法处理分布式的麦克风信号,忽略了麦克风在不同位置的差异。一些研究显示,信噪比高的麦克风对语音质量更有利。因此,我们提出了一个叫做SDNet的网络,它使用通道流注意力和双特征学习。主要贡献有两点:1)我们提出了一个更简单的双特征学习块,更好地学习长期依赖。2)基于这种高质量的语音表示,我们进一步提出了通道流注意力,有效处理不同的麦克风,并给信噪比高的麦克风更多注意力。实验表明,我们提出的模型比其他的基准模型更优。
04.DiscriminationoftheDifferentIntentsCarriedbytheSameTextThroughIntegratingMultimodalInformation
论文作者:李忠杰,张高燕,王龙标,党建武
中文多模态口语意图理解的注意力模型。人机智能对话技术随着人工智能的发展和智能设备的普及而受到广泛
转载请注明:http://www.0431gb208.com/sjszlfa/8073.html