一文看懂ldquo语音识别ASRr

来源：语言识别时间：2022/5/13

温馨提示：文末有：优惠券（金额很大）for三节课《产品经理P2（进阶）系列课程》《互联网业务数据分析实战》。

语音识别（AutomaticSpeechRecognition，简称ASR），是语音交互中最基础的一个AI技术环节，大家可以先在手机上体验siri等各种语音助手，或者各种智能音箱，找找感觉：）

本文，是我收集了很多线上/线下的相关信息后，提炼出的AI产品经理“最必要”了解的ASR技术知识和行业现状（多了没必要，少了又不足以入门、准备面试或工作实战）；不仅帮大家节省了时间，更是过滤了很多无用信息和过于技术的内容。

一、核心概念：语音识别ASR、远场语音识别（语音激活检测VAD、语音唤醒、麦克风阵列、全双工、纠错）

二、当前技术边界

三、瓶颈和机会

附：相关资料（文章和书籍）

核心概念

1、语音识别（AutomaticSpeechRecognition），一般简称ASR；是将声音转化为文字的过程，相当于人类的耳朵。

1）语音识别原理流程：“输入——编码——解码——输出”

语音识别，大体可分为“传统”识别方式与“端到端”识别方式，其主要差异体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型（HMM），而“端到端”方式一般采用深度神经网络（DNN）。

注：更多编码、解码等技术细节，感兴趣的同学可看《CUI三部曲之语音识别——机器如何听懂你的话？》