毕业论文
您现在的位置: 语言识别 >> 语言识别发展 >> 正文 >> 正文

AI问语音识别需要什

来源:语言识别 时间:2022/6/22

数据是“养成”一个语音识别系统的粮食。因此,一个识别系统要想健康成长,必须给他优质的数据作为食粮,保证营养供应。那么,什么才是优质数据呢?

早期,科学家们认为优质的数据是发音清晰的,且受噪音干扰少的数据。典型的如TIMIT数据库,中文数据库,清华THCHS30数据库都是依这样的原则设计的。这些数据库通常体量不大,因此发音文本要仔细设计,以满足发音单元的覆盖度。这些清晰的、低噪音的数据资源对语音学研究起到了巨大推动作用,让科学家们可以对语音信号的特性进行深入研究,如共振峰分布、音调模式等。

后来,研究者意识到过度要求发音质量,反而可能会使识别系统过于“娇贵”,难以适应现实场景。因此,发音人未必需要播音员标准,只需吐字正常即可;录音场景也不用刻意保持安静,不要过度嘈杂就可以。与其花精力控制录音质量,不如努力增加录音的数量,通过更多说话人,更多场景的采集,提高数据对真实场景的覆盖度。当前广泛应用的数据集,包括WSJ、Switchboard以及DataMagic、AIShell等数据公司推出的免费数据,都属于此列。这些数据规模大,场景覆盖全面,可以用来构造很好的语音识别系统。对这类数据而言,较为重要的是保证发音与文本标注的一致性,一般需达到95%以上。因此,这一时期我们认为优质的数据是标注准确的、发音人和场景覆盖广泛的、且具有足够规模的数据。

近年来,人们更加

转载请注明:http://www.0431gb208.com/sjszyzl/686.html