雷锋网按:年8月7日至9日,全球人工智能和机器人峰会(CCF-GAIR)在深圳圆满举行。CCF-GAIR峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。
从年的学产结合,年的产业落地,年的垂直细分,年的人工智能40周年,峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台。
8月8日,在由深圳市人工智能学会、CCF语音对话与听觉专业组协办的「前沿语音技术」专场上,中国科学技术大学电子工程与信息科学系副教授凌震华做了题为《基于表征解耦的非平行语料话者转换》的主题演讲。
凌震华副教授
凌震华副教授主要研究领域包括语音信号处理和自然语言处理。主持与参与多项国家自然科学基金、国家重点研发计划、安徽省语音专项等科研项目,已发表论文余篇,论文累计被引余次,获国家科技进步奖二等奖和IEEE信号处理学会最佳青年作者论文奖。在BlizzardChallenge国际语音合成技术评测、VoiceConversionChallenge国际语音转换技术评测等活动中多次获得测试指标第一名。
凌震华副教授现为电气电子工程师学会(IEEE)高级会员、中国计算机学会语音听觉与对话专业组委员、中国语言学会语音学分会学术委员会委员、全国人机语音通讯学术会议常设机构委员会委员。-年曾任IEEE/ACMTASLP期刊副编辑。
在演讲中,凌震华副教授主要从语音转换所基于的语料类型出发,介绍了平行语料下实现语音转换的技术演变过程,并由此延伸到非平行语料下的语音转换。
其中在平行语料条件下,传统语音转换基于GMM(高斯混合模型)实现。年后深度学习技术被引入语音转换任务,基于产生式训练的深度神经网络(GenerativeTrainedDeepNeuralNetwork,GTDNN)等模型相继被提出。不过无论是GMM还是DNN,都面临源与目标语音帧对齐过程中出现的误差和不合理问题。近年来提出的序列到序列(seq2seq)语音转换方法可以有效改善这一问题,提升转换语音的自然度与相似度。
进一步,凌震华副教授谈到了在非平行语料条件下的语音转换,并表示这种场景普遍存在于实际应用中,也更有难度。基于非平行数据构造平行数据,以及分离语音中的文本与话者表征,是实现非平行语音转换的两条主要技术途径。
随后,凌震华副教授重点介绍了所提出的基于特征解耦的序列到序列语音转换方法,该方法在序列到序列建模框架下实现语音中文本相关内容和话者相关内容的分离,取得了优于传统逐帧处理方法的非平行语音转换质量,接近使用同等规模平行数据的序列到序列语音转换效果。
最后,凌震华副教授表示:
我们在进行语音转换的过程中,序列到序列建模方法在时长调整、长时相关性建模等方面有其优势,但是将该方法从平行数据条件推广到非平行数据条件存在挑战。特征解耦是解决这一问题的有效途径,通过序列到序列框架下的模型结构与损失函数设计可以获取相对独立的文本与话者表征,进一步实现非平行数据条件下的高质量语音转换。
以下是凌震华副教授在CCF-GAIR「前沿语音技术」专场中的演讲内容全文,雷锋网对其进行了不改变原意的编辑整理:
谢谢大家,今天我的报告题目是《基于表征解耦的非平行语料话者转换》。
之前各位老师已经介绍了语音技术领域的若干研究任务,如声纹识别、语音分离与增强等。话者转换是一种语音生成的任务,同时这个任务也和说话人的身份信息相关——之前介绍的声纹识别是从语音中识别身份,而话者转换是对语音中身份信息的控制和调整。
我的报告会围绕三个部分进行:
话者转换的任务定义;平行语料和非平行语料的话者转换方法;基于表征解耦的非平行语料话者转换方法。话者转换,又称语音转换,英文名为VoiceConversion,指的是对源说话人的语音进行处理,使它听起来接近目标发音人,同时保持语音内容不变。
类比于计算机视觉领域的人脸替换工作,如Deepfake等,话者转换是对语音信号中的说话人身份信息进行处理,其应用领域包括娱乐化应用和个性化的语音合成等。同时,身份的匿名化、一致化也会使用到话者转换技术。
话者转换技术经过了从规则方法到统计建模的发展历程。现阶段的基于统计建模的话者转换方法,其转换过程通常包括三个主要步骤:
源说话人语音输入后,首先经过声码器从语音信号中抽取声学特征,如梅尔谱、基频等;进一步通过声学模型P(Y
X)进行由源说话人声学特征X到目标说话人声学特征Y的映射;映射得到的声学特征最后通过声码器重构语音信号。
今天我们介绍的内容主要围绕中间的统计声学模型展开。在对于话者转换任务的背景介绍后,下面着重介绍平行语料和非平行语料条件话者转换任务的区别、主要方法,以及我们做过的一些相关工作。
那么什么是平行语料?
在训练阶段,如果源和目标两个说话人朗读过同样的文本,就可以得到他们之间的平行语料。基于平行语料,可以直接建立转换模型描述两个说话人声学特征之间的映射关系。在转换阶段,输入新的源说话人声音,就可以通过转换模型进行目标说话人声学特征的预测。
在深度学习出现之前,在平行语料语音转换中,最经典的方法是基于高斯混合模型(GMM)的方法。
其基本的策略是,两个说话人录制了平行语料后,考虑到两个人的语速、停顿等不一致带来的声学特征序列长度差异,需要先利用动态时间规整(DTW)算法进行序列的对齐,得到等长的X序列和Y序列。接着,将每个时刻的源说话人声学特征与目标说话人声学特征进行拼接,进一步训练得到两个发音人声学特征的联合概率模型P(X,Y)。
进一步,我们由P(X,Y)可以推导出P(Y
X)。在转换的时候我们就可以把源说话人的声学特征X送到模型中,将目标发音人声学特征Y预测出来。使用的预测准则包括最小均方误差(MMSE)和最大似然估计(MLE)等。
不过,基于GMM声学建模的语音转换质量还是不尽如人意。一方面转换的音质不够高,声音听起来有机械感;二是和目标人的相似度不够好。这些都和声学模型的精度不足有关系。
针对以上问题,自年开始,深度学习被广泛应用与语音转换的各个技术环节,如特征表示、声学建模、声码器等。今天重点
转载请注明:http://www.0431gb208.com/sjszlff/2118.html