来自清华大学语音处理与机器智能实验室(THU-SPMI),入选语音顶会(ASRU)
Multilingualandcrosslingualspeechrecognitionusingphonological-vectorbasedphoneembeddings.
ChengruiZhu,KeyuAn,HuahuanZheng,ZhijianOu(朱程睿、安柯宇、郑华焕、欧智坚)IEEEWorkshoponAutomaticSpeechRecognitionandUnderstanding(ASRU),.
1背景介绍及研究动机世界上有超过种语言,但绝大多数语言对语音识别来讲是低资源的,即缺乏语音识别所需的大量标注数据。多语言(Multilingual)和跨语言(Crosslingual)语音识别技术,旨在借助多个语言的语音数据,利用不同语言间发音的相通性,更好地建立低资源的目标语言的语音识别系统。
多语言语音识别,指将若干语言的数据混合在一起,共同训练一个声学模型。
跨语言语音识别,则是先训练一个多语言模型,然后针对一个新的语言进行语音识别。如果不使用任何目标语言的语音进行微调(finetune),就是零样本(zero-shot)情形;如果使用少量目标语言的语音对多语言模型进行微调,则是小样本(few-shot)情形。
不同语言在发音方面或多或少都有一定的相似性,这是因为无论哪种人类语言,都是人类的一套发音器官发出来的音嘛,此处省略一千字:)
多语言和跨语言语音识别的方法,本质上就是希望尽可能利用不同语言发音间的这些相似信息,促进多语言信息共享!如何在多语言语音识别中最大程度地实现这种信息共享呢?现有研究大多采用共同音素集的方法。年国际语音学会编制出一套国际音标(InternationalPhoneticAlphabet,IPA),来表示所有语言的音。根据音素的发音方法、发音位置来区分音素,不同语种间发音相似的音素,可以用同一个IPA符号表示。IPA表见图1所示,这张表上的音素可以表示世界上各种语言。懂了这些音标的读法,就能念出它标出的任意语言的词语,也能在听到一个词后用音标来转写该词。
图1国际音标表(IPA)
通常人们认为音素就是语音的基本单元,不可拆分。但是近来的音系学(Phonology)研究表明,音素可以进一步由区别特征(又称音位特征、发音特征)来进行微观表示。
来看看图2的类比,帮助我们更好地理解音素的微观表示。
物质的组成基本单元是元素,语音的组成基本单元则是音素,我们耳朵听到的就是一个个的音素组成的单词、句子。
元素周期表上记录了所有的元素;相应地,IPA表包含了所有的音素。
元素原子在微观上由原子核和电子组成,电子的数目和排布方式决定了元素的性质;相应地,音素也可以继续拆分,由音位特征来表示,而音素的发音则由这些音位特征决定。
图2物质构成与语音构成的类比
图3向我们展示了部分IPA音素的24维音位特征,每一维代表一种发音特征,可以用“+”、“-”或“0”表示。“+”表示具备该特征,比如就代表该音素为边音,发音时气流会从舌头两侧流过;“-”代表不具备该特征;“0”则代表该特征与该音素无关,比如辅音是不会表现元音特征的。
图3部分音素的音位特征
如果我们将音素拆分为音位特征的表示,就可以在多语言训练中更好地共享信息!
图4给出了西班牙语和意大利语的部分音素。在传统方法中,两个语言之间共享信息只能靠中间那些在两个语言都出现的音素来实现。但音素被拆分为音位特征表示以后,分别在两个语言中出现的西班牙音素e和意大利语音素?在音位特征的层面上有很多相似,他们仍然可以在这一层面上共享信息,这实在是太妙了!
图4西语、意语的音素集的联系
为了方便声学神经网络模型的训练,24维的音位特征将被编码为51维的比特矢量,这就得到了音位矢量,有了它,我们就可以开始模型训练啦!
2JoinAP方法本文提出JoinAP(JoiningofAcousticsandPhonology)方法,意为结合了声学(Acoustics)和音系学(Phonology)的方法。图5(b)是传统的基于音位特征的方法。这种方法存在两个不足:
自低而上的音位特征提取,本身就难以保证提取性能;
在跨语言语音识别中,目标语言如果包含在训练集语言中的未见音素(unseenphones),模型将无法对这些未见音素进行识别。
图5JoinAP方法与传统方法
图5(a)是我们的JoinAP方法。从顶往下,将音素的音位矢量经过变换(phonologicaltransformation),得到音素嵌入(phoneembedding);自底向上,声学深度神经网络(DeepNeuralNetwork、DNN)提取出高层声学特征。将音素的phoneembedding与声学特征做内积,计算出时刻下音素的匹配得分(logit):之后通过softmax计算音素的后验概率,便可送往CTC或CTC-CRF模型进行语音识别。关于phonologicaltransformation,有线性和非线性两种方法:线性:用线性变换将音位矢量映射为phoneembedding,
这里,为DNN最后一层输出(即)的维度。非线性:可以引入多层神经网络来进行phonologicaltransformation,加入更多隐藏层,
这里都是大小合适的矩阵,代表非线性激活函数。3实验结果Table3:Worderrorrate(WER)results(%)forGerman,French,SpanishandItalianinthemultilingualexperiments我们利用CAT工具包(转载请注明:http://www.0431gb208.com/sjszlfa/280.html