本文总结于年10月30日汤志远博士在深蓝学院关于[口音与方言语音识别研究进展]的公开课,更多详细内容可以参见公开课。见文末~
汤博士和大家一起分享了关于口音与方言语音识别的研究进展,并介绍了口音或方言语音识别相关的数据、基准和竞赛,以及一些可行的研究方向。
口音和方言问题回顾所谓的语音识别就是实现从语音到文本的转换,建模方式从过去常用的DNN-HMM结构转变到最近流行的端对端结构。这些模型的区别体现在建模单元的颗粒度,针对端对端的框架,目前比较流行的结构包括RNN-T、编码器-解码器、注意力机制等;而损失函数通常采用CTC或者CE。传统的DNN-HMM如今依旧保持着一定的活力,比如TDNN模型,常采用损失函数LF-MMI。
针对语音识别,所包含的研究课题很多:
1.在数据层面,包括在深度学习兴起之前的数据特征提取,以及调整速度、音量、噪声等方面的数据增广,对于无标签数据的预训练和半监督学习方法,以及针对无数据、少数据时的Few-shot、one-shot、zero-shot等方法
2.在训练层面,我们可以选择多种结构或模型,以及损失函数
3.在部署时,我们要对模型进行压缩、量化、流处理等,来加快计算。除此之外,我们还可以考虑是否可以通过多模态、多语种、多场景、多领域等来进行系统训练,以及对于一些特定类型的语音进行识别,比如咳嗽声、老人或者小孩的声音等
4.此外还有一些和深度学习息息相关的通用课题,比如迁移学习、对比学习、联邦学习等。
关于口音和方言,口音通常表现在音素层面的变动,而方言则通常有更大的偏移,比如粤语、闽南话这些。本次的分享主要
转载请注明:http://www.0431gb208.com/sjszlfa/7491.html