2月初,AAAI在美国纽约拉开了帐蓬。本届大会百度国有28篇论文被收录。本文将对此中的机械翻译范围录取论文《SynchronousSpeechRecognitionandSpeech-to-TextTranslationwithInteractiveDecoding》施行解读。一、协商配景语音翻译技巧是指哄骗谋划机完结从一种谈话的语音到此外一种谈话的语音或文本的主动翻译流程。该技巧能够普遍运用于会议演讲、贸易座谈、跨境客服、放洋观光等各个范围和场景,具备要害的协商价格和辽阔的运用前程。连年来,跟着人为智能技巧在语音、翻译等关联范围的繁荣进展,语音翻译技巧慢慢成为学术界和企业界竞相协商的热门。目下的语音翻译系统每每由语音判断、机械翻译和语音合成等多个模块串连构成,办法简明,但面对着噪声容错、断句标点、时候推迟等一系列技巧困难。端到端的语音翻译模子在理论上能够缓和级关连统的缺点,它经过直接建树源语谈话音到目口号言文本的映照相干,一步完结跨模态跨谈话的翻译,一旦技巧老练,理论上能够让语音翻译更准更快,极地面提拔模子的本能。论文做家发掘语音判断和语音翻译两个职责是相得益彰的。图1如图1所示,语音判断和语音翻译交互示例比拟于直接将原始语音做为输入,倘使能够动态猎取到判断出的文本讯息,语音翻译将变得越发轻易;而翻译出的了局也有助于同音词识其它消歧,使判断了局越发精确。因而,论文做家们盼望谋划一种交互式的模子,让语音判断与语音翻译两个职责能够动态交互进修,完结学问的同享和通报。二、技巧计划针对上述题目,做家们在论文中提议了一种基于交互式解码的同步语音判断与语音翻译模子。图2基于交互式解码的同步语音判断与语音翻译如图2所示,论文做家应用基于自仔细力机制的Transformer模子做为主框架,语音判断职责和语音翻译解码职责同享统一个编码器,在解码器中插手一个交互仔细力机制层,完结两个职责的学问交互和通报。图3交互仔细力机制层如图3所示,交互仔细力机制层包罗一个自仔细力模块和一个跨职责仔细力模块。此中前者用于索取目下职责输出端的特色示意,后者用于索取另一个职责输出端的特色示意,两者经过一个线性插值函数合并赢得包罗两个职责讯息的特色示意。在熬炼阶段,两个职责同时优化;在解码阶段,两个职责同步施行。这样,在推断下一个词的流程中既能够用到目下职责的已生成的词语,也能够哄骗到另一个职责上已生成的词语。为了进一步提拔语音翻译的本能,论文做家采取了一种wait-k的办法,使得语音翻译职责比拟语音判断职责推迟k个词语施行,以赢得更多更牢固的文本讯息做为扶助。三、试验了局当前语音翻译数据相当缺乏且原料不高,为此论文做家建设了一个新的语音翻译数据集,数据来自TED网站视频和字幕文献,包罗语音、判断文本、翻译文本的对齐语料。这边应用了英德、英法、英中、英日四种谈话,前两种属于较为彷佛的谈话对,后两种是不彷佛的谈话对。语音判断和语音翻译的了局别离应用词过错率(WER)和BLEU施行权衡。论文做家与多个强基线模子施行了对照,囊括由语音判断和机械翻译模子串连构成的级关连统(Pipeline),在语音判断语料长施行预熬炼的端到端语音翻译模子(E2E),语音判断和语音翻译同享编码器的多职责模子(Multi-task),以及一个两阶段模子(Two-stage)(第一阶段解码器用于猎取判断文本的中央示意,第二阶段解码器基于编码器的示意和第一阶段解码器的中央示意生成对应的翻译)。表1不同模子在多个谈话对上的试验了局表1给出了不同模子在英德、英法、英中、英日不同谈话对上的判断和翻译成就。能够看出在大多半情状下,基于交互式解码的同步谈话判断与语音翻译模子的本能呈现不论在语音判断职责照旧语音翻译职责上都要显著高于预熬炼的端到端模子、多职责模子和两阶段模子。在彷佛的谈话对上基于交互式解码的模子能够高出级关连统,在不彷佛的谈话对上也与级关连统可比。值得仔细的是以前端到端的语音翻译模子险些都很难到达级关连统的本能。表2wait-k对翻译本能的影响为了进一步提拔语音翻译的本能,论文做家让语音翻译职责比拟语音判断职责推迟k个词语施行,以赢得更多的文本讯息做为扶助。表2给出了在开辟集和测试集上不同的推迟词语数关于模子本能的影响。能够看出,即使推迟词语会轻细影响判断职责的呈现,然而语音翻译职责的本能能够赢得提拔。表3模子参数、熬炼速度妥协码速度论文中也对照了不同模子的参数目、熬炼妥协码速度。表3给出了模子的参数目巨细、每秒的熬炼步数和每秒的解码句子数。能够看出,论文中的模子较好地均衡了参数目妥协码速度,比拟级关连统,参数目赢得的大幅升高;熬炼妥协码速度显著低于两阶段模子;即使解码速度略低于预熬炼端到端模子和多职责模子,然而论文中的办法能够完结两个职责的同步解码。这篇论文也是百度翻译团队在端到端语音翻译范围的连接性协商了局,比拟于以前在Interspeech颁发的《End-to-EndSpeechTranslationwithKnowledgeDistillation》,这回提议的新模子进一步提拔了端到端语音翻译的本能,给学术界和企业界带来了新的思绪。论文
转载请注明:http://www.0431gb208.com/sjslczl/1074.html