选自GooglRsarch
做家:TaraN.Sainath、YonghuiWu
机械之心编译
介入:刘晓坤、李泽南
不日,google公布博客讲解了他们对端到端语音鉴别模子的最新钻研成效,新模子分离了多种优化算法提拔LAS模子的功能。相较于离别锻炼的保守系统,新法子充足地表现了团结锻炼的上风,在语音搜寻职责中取患了目下业内最低的词错率成果。
目下最好语音搜寻模子
保守主动语音鉴别系统(ASR)一贯被google的多种语音搜寻运用所哄骗,它由声学模子(AM)、发音模子(PM)和言语模子(LM)构成,悉数这些都市颠末自力锻炼,同时正常是由手动策画的,各个组件会在不同的数据集赶上行锻炼。AM索取声学特色并猜测一系列子字单位(subwordunit),正常是语境依赖或语境自力的音素。尔后,手动策画的辞书(PM)将声学模子生成的音素序列映照到单词上。着末,LM为单词序列分派几率。自力地锻炼各个组件会形成额外的繁杂性,最后获得的功能低于团结锻炼悉数的组件。从前几年来浮现了越来越多开采中的端到端系统试验以单个系统的方法团结进修这些离别的组件。即使关联文件声明这些端到端模子具备潜在代价[2,3],但关于云云的法子能否能提拔目下最好的保守系统的功能今朝尚无定论。
近来,google公布了其最新钻研,「哄骗序列到序列模子的目下最好语音鉴别系统」(Stat-of-th-artSpchRcognitionWithSqunc-to-SquncModls[4])。这篇论文形貌了一种新式的端到端模子,它的功能优于今朝已商用的保守法子[1]。在google的钻研中,新的端到端系统的词错率(WER)也许低沉到5.6%,关联于强壮的保守系统有16%的功能提拔(6.7%WER)。另外,该端到端模子也许在职何的假定再评分(hypothsisrscoring)以前输出初始词假定。该模子的巨细惟有保守模子的1/18,由于它不包罗离别的LM和PM。
google的新系统成立在Listn-Attnd-Spll(LAS,在文件[2]中初次提议)端到端架构之上。LAS架构由三个组件构成。listnr编码器组件,和准则的AM彷佛,取输入语讯息号x的功夫-频次表征,尔后哄骗一系列的神经网络层将输入映照到一个高档特色示意,hnc。编码器的输出被传送到attndr,其哄骗hnc进修输入特色x和猜测子字单位的{y_n,...y_0}之间的对齐方法,此中每个子字正常是一个字素或字片。着末,attntion模块的输出被传送给spllr(即解码器),spllr和LM彷佛,也许生成一系列假借口的几率散布。
LAS端到端模子的组件
LAS模子的悉数组件颠末单个端到端神经网络团结地锻炼,相较于保守系统的离别模块更为简洁。
另外,由于LAS模子都是神经网络类别,因而并不须要增加外部的手动策画组件,例若有限状况变换器、辞书或文本归一化模块。着末,和保守模子不同,锻炼端到端模子不须要计划树的领导或一个离别系统生成的功夫序列,给定了文本副本和关联的声学特色以后,就也许举办锻炼。
在文件[4]中,google引入了一种新式的布局化提拔,包罗优化传送给解码器的留神力向量,以及优化更长的子字单位(即字片,wordpics)的锻炼进程。另外,google在新模子中还引入了大批的优化锻炼进程的法子,包罗最小词错率锻炼法(minimumwordrrorrattraining[5])。恰是这些布局化和优化提拔使新模子取患了关联于保守模子16%的功能提拔。
这项钻研的另一个潜在运用是多土话和多言语系统,仅需优化单个神经网络所带来的简洁性是很有吸引力的。悉数的土话/言语也许被组合以锻炼一个网络,而不须要为每个土话/言语分派离别的AM、PM和LM。google生成这些模子在7种英语土话[6]和9种印度土话[7]上都办事得很好,优于离别地锻炼模子的功能。
即使成果很吸惹人,然而钻研人员觉得今朝的谋求还尚未完竣。第一,这些模子还不能及时地办理语音[8,9,10],而及时办理关于推迟敏锐的运用如语音搜寻而言是须要的。第二,这些模子在理论临盆数据赶上行评价的光阴体现仍旧欠安。第三,google今朝的端到端模子是在22,个灌音-文本对上进修的,而保守系统正常也许在显著大很多的语料库赶上行锻炼。着末,新模子还不能为罕见词进修符合的拼写,譬喻专着名词(正常还须要哄骗手动策画的PM)。google接下来的目的将是办理这些题目。
论文:Stat-of-th-artSpchRcognitionWithSqunc-to-SquncModls
论文链接:
转载请注明:http://www.0431gb208.com/sjszlff/881.html