专栏极限元语音算法专家刘斌基于深度学习的

来源：语言识别时间：2024/12/6

北京专治白癜风的医院有哪家 https://jbk.39.net/yiyuanfengcai/yyjs_bjzkbdfyy/
机器之心专栏作者：刘斌深度学习在年崭露头角后，近几年取得了快速发展，在学术界和工业界均呈现出指数级增长的趋势；伴随着这项技术的不断成熟，深度学习在智能语音领域率先发力，取得一系列成功的应用。本文将重点分享近年来深度学习在语音生成问题中的新方法，围绕语音合成和语音增强两个典型问题展开介绍。一、深度学习在语音合成中的应用语音合成主要采用波形拼接合成和统计参数合成两种方式。波形拼接语音合成需要有足够的高质量发音人录音才能够合成高质量的语音，它在工业界中得到了广泛使用。统计参数语音合成虽然整体合成质量略低，但是在发音人语料规模有限的条件下，优势更为明显。在上一期我们重点介绍了深度学习在统计参数语音合成中的应用，本期将和大家分享基于波形拼接的语音合成系统，围绕Siri近期推出的语音合成系统展开介绍，它是一种混合语音合成系统，选音方法类似于传统的波形拼接方法，它利用参数合成方法来指导选音，本质上是一种波形拼接语音合成系统。单元选择是波形拼接语音合成系统的基本难题，需要在没有明显错误的条件下将合适的基元组合在一起。语音合成系统通常分为前端和后端两个部分，前端模块对于提高语音合成系统的表现力起到非常重要的作用。前端模块将包含数字、缩写等在内的原始文本正则化，并对各个词预测读音，解析来自文本的句法、节奏、重音等信息。因此，前端模块高度依赖于语言学信息。后端通过语言学特征预测声学参数，模型的输入是数值化的语言学特征。模型的输出是声学特征，例如频谱、基频、时长等。在合成阶段，利用训练好的统计模型把输入文本特征映射到声学特征，然后用来指导选音。在选音过程中需要重点考虑以下两个准则：（1）候选基元和目标基元的特征必须接近；（2）相邻两个基元的边界处必须自然过渡。可以通过计算目标代价和拼接代价评估这两个准则；然后通过维特比算法计算最优路径确定最终的候选基元；最后通过波形相似重叠相加算法找出最佳拼接时刻，因此生成平滑且连续合成语音。Siri的TTS系统的目标是训练一个基于深度学习的统一模型，该模型能自动准确地预测数据库中单元的目标成本和拼接成本。因此该方法使用深度混合密度模型来预测特征值的分布。这种网络结构结合了常规的深度神经网络和高斯混合模型的优势，即通过DNN对输入和输出之间的复杂关系进行建模，并且以概率分布作为输出。系统使用了基于MDN统一的目标和拼接模型，该模型能预测语音目标特征（谱、基频、时长）和拼接成本分布，并引导基元的搜索。对于元音，有时语音特征相对稳定，而有些时候变化又非常迅速，针对这一问题，模型需要能够根据这种变化性对参数作出调整，因此在模型中使用嵌入方差解决这一问题。系统在运行速度、内存使用上具有一定优势，使用快速预选机制、单元剪枝和计算并行化优化了它的性能，可以在移动设备上运行。二、深度学习在语音增强中的应用通过语音增强可以有效抑制各种干扰信号，增强目标语音信号；有效的语音增强算法一方面可以提高语音可懂度和话音质量，另一方面有助于提高语音识别和声纹识别的鲁棒性。经典的语音增强方法包括谱减法、维纳滤波法、最小均方误差法，上述方法基于一些数学假设，在真实环境下难以有效抑制非平稳噪声的干扰。基于盲分离的非负矩阵分解方法也得到了一定

转载请注明：http://www.0431gb208.com/sjsbszl/7996.html

上一篇文章： NLP自然语言处理的基本原理

下一篇文章：语音芯片识别系统的分类和结构