毕业论文
您现在的位置: 语言识别 >> 语言识别资源 >> 正文 >> 正文

数据增强在语音识别中的应用

来源:语言识别 时间:2022/7/22
北京医院治痤疮 http://m.39.net/pf/a_9125685.html

在数据有限的情状下,数据巩固是一种罕用的,添加练习模范百般性的办法。本文对数据巩固运用于语音辨别中时所碰到的几许详细题目做了一些研讨和探究。

1为甚么要操纵数据巩固

一目了然,今朝基于机械研习的各式手艺,每每都须要操纵大批的数据来练习,语音辨别也不不同。对一个语音辨别系统而言,决意其辨别的确率的关键成分,大概也许分为两个方面:一是算法自身的是非;另一方面则是练习所操纵的练习数据。由于各种道理,第一个方面——算法,每每是漫溢人为智能范畴、机械研习范畴的研讨者留心研讨的方面。而第二个方面——数据,则轻易被研讨者们所无视。但由于机械研习算法所具备的相像黑箱子的特征,许多功夫数据的是非对整体本能的影响乃至要超出算法自身的影响。所以对本质用户和语音辨别效劳的供应商而言,这个方面倒是极其重大的。

详细而言,练习数据与实在操纵处景中的数据的般配度越高,则语音识其它本能越好。本质运用中,语音识其它操纵处景很繁杂,处境噪声、人的措辞方法,如音量、语速等,都市确定水平上影响语音辨别系统的的确率。练习数据对这些繁杂的情状笼罩得越周全,则语音辨别系统的鲁棒性越强,成就越好。

抱负情状下,为了建设一个强壮的语音辨别系统,咱们该当宽广地征集各式繁杂的实在场景下的语音数据,来建设咱们的练习集。但是在事实前提下,想要做到这一点却很推绝易。由于不是每个厂商都有猎取实在场景语音数据的渠道和才能,尽管胜利获患了实在场景的语音数据,数据标注也是一项极其费时吃力费钱的劳动。而一些直接可用的数据集(比方开源数据集、学术研讨用的数据集等),每每都是灌音者在肃静的灌音室里诵读特定体例,录制而成的。其与实在场景的数据有较大的不同。在这类情状下,数据巩固就显示出了它的价钱。

2甚么是数据巩固

浅显来讲,即是用一些音频处置的办法(程序,而非实在处境灌音)对语音停止确定的处置,让其变得更“繁杂”、更靠近实在场景的语音,添加练习模范的百般性。详细就语音数据而言,正常较量重大和罕用的所下列几种数据巩固办法:

噪声巩固,即是对一段洁白处境下录制的、没有配景噪声的语音,人为混入确定的配景噪声,使练习数据也许笼罩更多品种的噪声;音量巩固,即是变换一段语音的音量,使练习数据也许笼罩不同的音量;语速巩固,即是变换一段语音的语速,使练习数据也许笼罩不同的语速。

用这些语音来练习语音识其它声学模子,就也许确定水平上提高语音辨别系统的的确率和鲁棒性。

3测验

提及来轻易,做起来可未必。数据巩固很轻易了解,也很轻易操纵。但真要用到语音辨别中,却又有不少题目须要琢磨。本文就想来讲说这些特别详细、乃至略显啰唆的题目。譬喻:

在噪声巩固中,该取舍哪些噪声做为配景噪声呢?加噪的功夫该入取舍多大的信噪比呢?信噪比该当是个停止的数值吗?依然该当安排成可变的值呢?在音量巩固中,该入取舍多大的音质变动规模呢?在语速巩固中,该入取舍多大的语速变动规模呢?有了数据巩固后的数据,原始数据再有没有须要介入练习呢?一份数据做完多种数据巩固操纵后变成了好几份数据,倘使一块用来练习,则会极地面添加练习开支,这时该何如办?

上面,咱们将经过测验,对上述几个题目逐一回答。

3.1测验建设

首先,咱们建设了一个数据量约小时的练习集,此中绝大部份是较为纯洁的灌音数据。咱们衡量了测验的速率和测验事实在大数据上的代表性,终究取舍从练习齐集随机抽取小时做为数据巩固测验的练习集。测试集则采用了实在测试集——贝壳IM短语音测试集,包罗句话。

3.2噪声巩固

在噪声的取舍上,咱们从开源的musan数据齐集,人为选取出了66条,做为配景噪声。而对于怎样肯定信噪比的题目,咱们则对数据齐集的不同语音,采选不同的信噪比,而且信噪比的值效劳一个正态散布。这个正态散布的准则差咱们停止为10,均值则是一个变量,须由一组测验来肯定其最优值。

看测验事实以前,先来科普两个罕用的衡量语音辨别系统本能是非的目标:WER和CER。

词过错率(WER,WordErrorRate),即是辨别过错的词数与总词数的比值,固然是越低越好。这是最罕用的本能目标。字过错率(CER,CharacterErrorRate),界说与WER相像,只不过统计的单位由“词”变成了“字”。操纵CER主若是由于华文不像英文那样严刻以词为单位,所以统计华文的辨别率用CER更适宜。ModelCERWERBaseline21..70SNR-mean=0dB22..13SNR-mean=5dB21..29SNR-mean=10dB20..46

由事实也许看出,当介入的噪声过强时,辨别的确率会下落,而跟着信噪比的添加,的确率渐渐激昂,当信噪较量为适宜时,的确率也许超出Baseline。这证实经过噪声巩固,模子本能确凿也许赢得确定的提高。信噪比的均值为10dB,是一个较量正当的取值。

3.3音量巩固

音量巩固的紧要参数,是音量的变动规模,也即是音量scale值的高低限。为了肯定高低限的最优值,咱们停止了下列几组测验:

ModelCERWERBaseline21..70scale0.-2...90scale0.5-2...81scale0.5-1...60scale0.8-1...55

由事实也许看出,音量巩固也也许带来确定的本能提高,scale值的高低限别离为0.5和1.5时,模子本能较好。

3.4语速巩固

语速巩固的紧要参数,是语速变动的规模。由于语速的变动会致使较为显然语音变换,所以咱们采选语速变动规模较小,只采选了0.9倍速、1.1倍速、1.0倍速(原速)来停止测验。

ModelCERWERBaseline21..70Speed0.9,1.0,1...28在“Speed0.9,1.0,1.1”这组测验中,小时练习数据被分为三部份,此中一份维持原速,一份变成0.9倍速,一份变成1.1倍速,尔后再把三者兼并起来做为练习集。

由事实也许看出,语速巩固对模子本能有所协助。

3.5多种巩固的叠加

上述测验中,咱们别离考证了3种不同的数据巩固操纵对语音辨别模子本能的提高。接下来倘使咱们要把几种数据巩固操纵合起来,又该当留心些甚么呢?

ModelCERWERBaseline21..70Noise20..46Volume20..60Noise+Volume21..h_N,h_V20..h_N,h_V,h_S20..82上表中各组测验的寓意:Noise:操纵上述测验3.2中的最优参数值(SNR-mean=10dB)停止噪声巩固;Volume:操纵上述测验3.3中的最优参数值(scale值的规模为0.5-1.5)停止音量巩固;Noise+Volume:对一块练习数据,停止噪声巩固、音量巩固,两种数据巩固操纵;h_N,h_V:将一块小时数据分为2部份,每份小时,此中一份停止噪声巩固,另一部份停止音量巩固,再将两部份数据合一同操纵;h_N,h_V,h_S:将小时数据分为小时、小时、小时三部份,对此中小时做噪声巩固,此外小时做音量巩固,小时做语速巩固,再将三部份数据合在一同操纵。

从测验事实也许看出,对统一份数据同时停止多种数据巩固操纵,会致使模子本能的下落。其也许的道理有二:

一种也许是,是由于在实在测试齐集,同时变换语音多种属性的情状并偶尔见,云云做反而使得练习集与测试集不般配;另一种也许是,由于数据巩固是操纵音频处置本领对数据停止改变,并非实在情形下灌音所得,所以有也许在处置历程中引入一些畸变,倘使同时停止多种数据巩固操纵,也许使这类畸变叠加。

总而言之,不论怎样,应防止对统一份数据停止多种数据巩固操纵。而该当将数据分红几部份,别离对其停止一种数据巩固操纵。

3.6原始数据的须要性

在上述测验中,只操纵了数据巩固后的数据停止练习,而没有操纵原始数据。那末在做完数据巩固以后,咱们有没有须要把原始数据也介入到练习齐集呢?

ModelCERWERBaseline21..70h_N,h_V,h_S20..82_clean,h_N,h_V,h_S19.7.18在上表中:h_N,h_V,h_S的寓意与测验3.5雷同;_clean,h_N,h_V,h_S,则代表在h_N,h_V,h_S的原形上,额外介入一份h未做数据巩固的原始数据,总的练习数据质变成0小时。

由测验事实也许看出,介入原始数据是有协助的。尽管原始数据是洁白的灌音室数据,把原始数据与做完数据巩固以后的数据放在一同停止练习,也也许提高整体的的确率。

4论断

首先,数据巩固确凿能在确定水平上提高语音辨别系统的的确率,特别是在练习数据较量纯洁,与本质运用处景出入较大的情状下。详细来讲:

在噪声巩固中,该入采选较为适宜的配景噪声,信噪比的取舍也许遵照正态散布的方法,均值的最优值在10dB左右;在音量巩固中,音量的变动系数的最优规模约为0.5-1.5之间;在语速巩固中,语速的变动规模在0.9-1.1之间。不该该对一份数据停止多种数据巩固操纵,而该当把数据分为几部份,别离做不同品种的数据巩固操纵。只操纵数据巩固以后的数据停止练习是不敷的,有须要将原始数据介入到练习数据中,尽管原始练习集是纯洁语音也有须要这么做。

综上,今朝较量抱负的数据组成方法是:

保存一份原始数据,尔后额外添加一份数据巩固的数据;把这份数据巩固的数据分红几个部份,每个部份做一种数据巩固操纵。

云云一来,总的数据会变成两份。云云既保证了数据的周全性,同时又没有让数据量倍增,在本能和练习开支上到达了较量好的均衡。

做家先容

赵梦原,年12月介入贝壳,紧要从事语音辨别关联劳动。

推举浏览

AINLP年度浏览收藏清单

华文NER职责测验小结汇报——深入模子实行细节

BottleSum——文本概要论文系列解读

抛开模子,探讨文本主动概要的实质——ACL论文佳做研读系列

鼠年春节,用GPT-2主动写春联和对春联

用GPT-2主动写诗,从五言绝句最先

征稿启迪

稿费+GPU算力+星球佳宾一个都不少

对于AINLP

AINLP是一个风趣有AI的果然言语处置社区,埋头于AI、NLP、机械研习、深度研习、推举算法等关联手艺的分享,中心囊括文本概要、智能问答、谈话机械人、机械翻译、主动生成、学问图谱、预练习模子、推举系统、盘算广告、应聘讯息、求职阅历分享等,招待

转载请注明:http://www.0431gb208.com/sjslczl/925.html