为办理今朝语音翻译系统噪声容错、断句标点、时光推迟等一系列本领困难,主动化所刘宇宸博士、张家俊协商员和宗成庆协商员等人和百度一同建设了更优的语音判别和翻译模子,使得语音判别与语音翻译两个职责进举动态交互研习,完结了学识的同享和传送,进一步提高语音判别和语音翻译的功用。关连成效被AAAI任用为Oral论文。
协商靠山与协商方针
暂时的语音翻译系统常常由语音判别、机械翻译和语音合成等多个模块串连构成,办法简洁,但面对着噪声容错、断句标点、时光推迟等一系列本领困难。端到端的语音翻译模子在理论上能够缓和级关连统的弊端,它经过直接成立源语谈话音到目口号言文本的映照关连,一步完结跨模态跨谈话的翻译,一旦本领老练,理论上能够让语音翻译更准更快,极地面提高模子的功用。协商团队发觉语音判别和语音翻译两个职责是相反相成的。
图1:语音判别和语音翻译职责交互示例
比拟于直接将原始语音做为输入,倘若能够动态猎取到判别出的文本音信,语音翻译将变得更为轻易;而翻译出的成果也有助于同音词识其余消歧,使判别成果更为确切。是以,协商团队渴望计划一种交互式的模子,让语音判别与语音翻译两个职责能够动态交互研习,完结学识的同享和传送。
实行办法
针对上述题目,协商团队和百度公司协做提议了一种基于交互式解码的同步语音判别与语音翻译模子。如图2所示
图2:基于交互式解码的同步语音判别与语音翻译
团队应用基于自注意力机制的Transformer模子做为主框架,语音判别职责和语音翻译解码职责同享统一个编码器,在解码器中参加一个交互注意力机制层,完结两个职责的学识交互和传送。如图3所示,
图3:交互注意力机制层
交互注意力机制层包罗一个自注意力模块和一个跨职责注意力模块。个中前者用于讨取暂时职责输出端的特性示意,后者用于讨取另一个职责输出端的特性示意,两者经过一个线性插值函数合并赢得包罗两个职责音信的特性示意。
在练习阶段,两个职责同时优化;在解码阶段,两个职责同步举办。这样,在猜测下一个词的流程中既能够用到暂时职责的已生成的词语,也能够哄骗到另一个职责上已生成的词语。为了进一步提高语音翻译的功用,团队采取了一种wait-k的办法,使得语音翻译职责比拟语音判别职责推迟k个词语举办,以赢得更多更牢固的文本音信做为帮忙。
实行成果
今朝语音翻译数据万分缺乏且原料不高,为此,协商团队建设了一个新的语音翻译数据集。团队从TED网站上爬取了视频和字幕文献,从中提掏出音频、英文字幕和多谈话翻译字幕,赢得了语音、判别文本、翻译文本的对齐语料。这边应用了英德、英法、英中、英日四种谈话,前两种属于较为如同的谈话对,后两种是不如同的谈话对。
语音判别和语音翻译的成果别离应用词过失率(WER)和BLEU举办权衡。协商人员与多个强基线模子举办了比拟,包罗由语音判别和机械翻译模子串连构成的级关连统(Pipeline),在语音判别语料长举办预练习的端到端语音翻译模子(E2E),语音判别和语音翻译同享编码器的多职责模子(Multi-task),以及一个两阶段模子(Two-stage)(第一阶段解码器用于猎取判别文本的中央示意,第二阶段解码器基于编码器的示意和第一阶段解码器的中央示意生成对应的翻译)。
表1:不同模子在多个谈话对上的实行成果
表1给出了不同模子在英德、英法、英中、英日不同谈话对上的判别和翻译功效。能够看出在大大都景况下,基于交互式解码的同步谈话判别与语音翻译模子的功用体现无论在语音判别职责照样语音翻译职责上都要显著高于预练习的端到端模子、多职责模子和两阶段模子。
在如同的谈话对上基于交互式解码的模子能够当先级关连统,在不如同的谈话对上也与级关连统可比。值得注意的是以前端到端的语音翻译模子险些都很难抵达级关连统的功用。
表2:wait-k对翻译功用的影响
为了进一步提高语音翻译的功用,协商团队让语音翻译职责比拟语音判别职责推迟k个词语举办,以赢得更多的文本音信做为帮忙。表2给出了在开采集和测试集上不同的推迟词语数关于模子功用的影响。能够看出,尽管推迟词语会微弱影响判别职责的体现,然则语音翻译职责的功用能够赢得提高。
表3:模子参数、练习速度妥协码速度
团队也比拟了不同模子的参数目、练习妥协码速度。表3给出了模子的参数目巨细、每秒的练习步数和每秒的解码句子数。能够看出,模子较好的均衡了参数目妥协码速度,比拟级关连统,参数目赢得的大幅低沉;练习妥协码速度显著低于两阶段模子;尽管解码速度略低于预练习端到端模子和多职责模子,然则协商团队的办法能够完结两个职责的同步解码。
Youtube上其余学者对团队做事的讲解:
转载请注明:http://www.0431gb208.com/sjszjzl/1077.html