“人工智能是一种模仿人类功能的产品。数据采集的方法需要针对特定的场景需求。”—–MarkBrayan
我们一直说,对于一个高质量的人工智能产品离不开高质量的训练数据。对于不同的人工智能我们需要不同的数据对其训练。要采集正确的数据去训练特定的模型才会得到高度精准的人工智能产品,才会解决某些特定的场景问题。
在确定数据采集的方法之前,我们都应该明确我们要解决的AI场景是什么?如果你是需要去做一款智能客服语音系统,你必然需要的是大量的语音数据而不是图像数据。当我们明确了需要的是大量的语音数据后,我们就要去寻找适合语音数据采集的方法。我们是否需要某种特定的工具?我们是否需要特定的培训才会使用这些工具?我们是否需要采集全新的数据还是可以更新一部分现有的数据?当明确了我们的产品最终要服务的目的和现况后,数据采集的方法也会迎刃而解且对症下药。
本期文章中,我们将介绍语音AI场景适用的数据采集方法和案例。
语音数据采集的方法如果你需要一款聊天机器人或者是智能语音系统,你会需要语音数据来训练算法模型。不同的语音产品需要不同程度的,量级的语音数据。语音数据又分为很多不同的类型,常见的类型有语音识别数据(ASR),和语音合成数据(TTS)。
采集语音数据的基本流程找出用户需要说的内容
确定特定领域的语言
从特定领域语言的样本中建立一个“脚本”
确定受众
记录人类从你的脚本中读出的内容
转写采集的语音数据
建立一个测试集
训练一个语言模型
语音识别数据的分类语音识别数据可以分为:
受控:脚本语音数据
半控制:基于场景的语音数据
自然:无脚本或对话式语音数据
1.脚本语音数据
脚本语音识别数据采集通常包括语音命令、唤醒词采集或两者的一种组合形式。参与数据采集的人员通常被要求阅读一组已经设置好的唤醒词或者语音命令语句。比如说:
“小爱,请调大音量”
“小爱,声音调大点”
“小爱,太轻了”
以上是表述同一个意思但不同说法的指令。这类型的数据通常被采集用来观察同一个命令的不同表达方式而不
转载请注明:http://www.0431gb208.com/sjslczl/6229.html