毕业论文
您现在的位置: 语言识别 >> 语言识别发展 >> 正文 >> 正文

深度了解语音识别之发音词典及语音数据采集

来源:语言识别 时间:2024/9/1
白癜风的偏方治疗 https://m.39.net/pf/a_4786525.html

“随着语音助手在生活中的不断普及,其中配备的发音词典的准确性受到越来越多企业的重视。景联文科技采集标注大量高质量语音数据集,可全方便满足发音词典的采标需求,为语音采集标注提供数据支持。”

语音助手是一种智能型的应用,通过智能对话与即时问答的智能交互,可以帮助用户解决问题,生活中常见的语音助手有“Siri”、“小度”等。这些语音助手中配备了相应的发音词典库,库中包含了它们能识别出的所有语音。

什么是发音词典?

发音词典是储存所有单词的发音的词典,并标明了其发音。通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系,把声学模型和语言模型连接起来。形成一个搜索的状态空间,可以将其用于解码器进行解码工作。

一个句子可以用若干个单词组合起来,每个单词都可以在发音词典中查询到该单词发音的音素序列。相邻单词的转移概率可以通过语言模型来获取,音素的概率模型主要通过声学模型获取,从而组成一句话的一个概率模型。

在语音识别系统中,发音词典涵盖的数据量越大,对于提升语音识别的准确率就越高。当遇到新词汇时,我们可以把这些词汇和它对应音标添加进发音词典当中,从而不断增加词典中的词汇数量。可以说,衡量发音词典质量的三大点主要为词汇量、音标标注和校对的准确性。

数据处理的重要性

目前,由于发音词典的搜集、标注、清洗都需要经过专业的把控,如果没有大量准确率高且涵盖词汇量较广的发音词典,就会影响到语音识别系统的性能。

数据经过清洗、标注等一系列处理后,投入发音词典模型中才能显示出更大的意义。只有对发音词典中的每个单词经过严格的标注,才能构建更全面、更精确的发音词典库,从而更好地提高语音识别的准确率。

景联文科技提供语音采集标注服务

景联文科技作为长三角地区最大的AI基础数据服务商之一,收集了大量语音数据集。针对人工智能语音工程算法模型训练提供数据定制采集标注服务,拥有丰富的语音数据采集标注项目经验,也自建了专业的语音采集录音室,有高度还原真实场景能力,在全国30多个省市有近一万人的被采集人员储备,全球范围内也有采集渠道,支持多语种、多方言语音采集。支持语音识别ASR采集、语音合成TTS采集、唤醒词采集、多人对话采集、车载语音采集、普通话采集、方言采集、英语采集、小语种采集、近远场采集、语音VAD采集等,采集终端支持大屏、手机、平板、PC、智能音箱、专业录音设备等。可以根据具体的采集标注项目书,对目标领域、场景的特定数据进行采集。自建数据标注基地、先进的数据标注平台和全品类标注工具,支持语音工程,包括语音切割、ASR语音转写、语音情绪判定、声纹识别标注等多种标注类型,可全方位满足合作方各类数据标注需求,为行业赋能。

语音采集标注案例:

需求:使用车机在车内采集唤醒词和车载语音指令数据,用于训练语音识别模型。

项目难点:需要全国不同区域、不同口音的录音者;算法辅助标注对部分重口音数据的效果不明显,人工识别也较为困难。

解决方案:景联文在全国范围内都建设有数据采集基地,能够快速组织各地语符合要求的录音者;对同一句多种类重口音数据进行多重多人质检。

景联文科技|Al基础数据服务|数据采集|数据标注|假指纹制作|指纹防伪算法

助力人工智能技术加速数字经济相关产业质量变革,赋能传统产业智能化转型升级

转载请注明:http://www.0431gb208.com/sjszyzl/7443.html