毕业论文
您现在的位置: 语言识别 >> 语言识别介绍 >> 正文 >> 正文

口音与方言语音识别研究进展

来源:语言识别 时间:2024/9/8
北京治疗白癜风价格多少 https://m.39.net/disease/a_5416226.html

本文总结于年10月30日汤志远博士在深蓝学院关于[口音与方言语音识别研究进展]的公开课,更多详细内容可以参见公开课。见文末~

汤博士和大家一起分享了关于口音与方言语音识别的研究进展,并介绍了口音或方言语音识别相关的数据、基准和竞赛,以及一些可行的研究方向。

口音和方言问题回顾

所谓的语音识别就是实现从语音到文本的转换,建模方式从过去常用的DNN-HMM结构转变到最近流行的端对端结构。这些模型的区别体现在建模单元的颗粒度,针对端对端的框架,目前比较流行的结构包括RNN-T、编码器-解码器、注意力机制等;而损失函数通常采用CTC或者CE。传统的DNN-HMM如今依旧保持着一定的活力,比如TDNN模型,常采用损失函数LF-MMI。

针对语音识别,所包含的研究课题很多:

1.在数据层面,包括在深度学习兴起之前的数据特征提取,以及调整速度、音量、噪声等方面的数据增广,对于无标签数据的预训练和半监督学习方法,以及针对无数据、少数据时的Few-shot、one-shot、zero-shot等方法

2.在训练层面,我们可以选择多种结构或模型,以及损失函数

3.在部署时,我们要对模型进行压缩、量化、流处理等,来加快计算。除此之外,我们还可以考虑是否可以通过多模态、多语种、多场景、多领域等来进行系统训练,以及对于一些特定类型的语音进行识别,比如咳嗽声、老人或者小孩的声音等

4.此外还有一些和深度学习息息相关的通用课题,比如迁移学习、对比学习、联邦学习等。

关于口音和方言,口音通常表现在音素层面的变动,而方言则通常有更大的偏移,比如粤语、闽南话这些。本次的分享主要

转载请注明:http://www.0431gb208.com/sjszlfa/7491.html