TalktoAI,揭秘背后的语音识别数据

来源：语言识别时间：2024/9/1

语音识别正在进入我们日常生活的方方面面。它内置在我们的手机、游戏机或智能手表中，只需呼唤它的名字，就可以帮你订外卖、播报天气等等。经过几十年的发展，深度学习使得语音识别技术可以应用到更多的实际场景中。

语言是人与人沟通最重要的方式，语音识别能力是让机器理解人类世界的基础能力。通过深度学习算法建立语音识别模型，需要大量高质量的结构化语音数据对模型进行训练。语音分割和语音转写即对非结构化语音数据进行的结构化处理。

语音分割和语音转写工具是Appen团队专门针对高质量的语音识别模型训练而研发。

语音分割SEGMENTATION

语音分割是指标记语音信号的开始时间和结束时间，以划分出一段语音中句子、单词、音节的边界。根据是否存在实际说话内容，音频可分割为有效片段和无效片段。根据算法要求的不同，通常的分割处理方式有两种：

方法1：分割出无效片段

分割出无效片段，并对无效片段打标签，如噪音、背景音乐、音量过小等。

方法2：分割出有效片段

只分割出有效片段，无效片段不做分割。

当一段语音中同时存在多个说话人时，工具也支持不同的分割方式：可根据主说话人的语音内容分割，只分割出主说话人的语音；也可独立分割每个说话人的语音内容，不同说话人的分段可能会有重叠。

在实际项目中，通常要求切分时间点与第一个音节的开始时间只相差几百甚至几十毫秒，这对于标注工具及人员操作的要求较高。工具可提供刻度、量尺等功能，辅助达到高标准的标注精度要求。

与此同时，工具还可以使用语音分割算法对数据进行预处理，使得实际标注时只需要在预处理的基础之上做出调整即可。

语音转写TRANSCRIPTION

语音转写是指将分割出的每个语音段里的内容转写成文字。除了转写出文本外，还可以给语音设置属性标签、文本标签等，以满足语音分类、情绪判定等不同的标注需求。

由于不同说话人的语速、说话清晰度等都不尽相同，因此标注工具需要支持不同的播放速度设置，以及不同的语音播放模式。

在分割出语音片段后，工具支持给每个片段选择不同的属性标签，如说话人、情感、内容分类等等，可用于对语音内容的分类；在转写文本中，工具亦支持进一步在文字中设置停顿、强调、疑问等文本标签。

同样地，语音转写工具也具有算法辅助功能：标注员完成音频分割后，可通过算法预转写语音内容，并在预转写结果的基础上进行修改。

吴恩达曾经预测，当语音识别的准确率从95%提升到99%时，语音识别将成为人类与计算机交互的新方式。这4%准确率的提升，使得未来语音识别技术的应用充满无限想象。

下一篇文章：没有了