毕业论文
您现在的位置: 语言识别 >> 语言识别优势 >> 正文 >> 正文

一文看懂ldquo语音识别ASRr

来源:语言识别 时间:2022/5/13
北京最好的白癜风医院排名 https://yyk.familydoctor.com.cn/2831/

温馨提示:文末有:优惠券(金额很大)for三节课《产品经理P2(进阶)系列课程》《互联网业务数据分析实战》。

语音识别(AutomaticSpeechRecognition,简称ASR),是语音交互中最基础的一个AI技术环节,大家可以先在手机上体验siri等各种语音助手,或者各种智能音箱,找找感觉:)

本文,是我收集了很多线上/线下的相关信息后,提炼出的AI产品经理“最必要”了解的ASR技术知识和行业现状(多了没必要,少了又不足以入门、准备面试或工作实战);不仅帮大家节省了时间,更是过滤了很多无用信息和过于技术的内容。

目录

一、核心概念:语音识别ASR、远场语音识别(语音激活检测VAD、语音唤醒、麦克风阵列、全双工、纠错)

二、当前技术边界

三、瓶颈和机会

附:相关资料(文章和书籍)

1

核心概念

1、语音识别(AutomaticSpeechRecognition),一般简称ASR;是将声音转化为文字的过程,相当于人类的耳朵。

1)语音识别原理流程:“输入——编码——解码——输出”

语音识别,大体可分为“传统”识别方式与“端到端”识别方式,其主要差异体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型(HMM),而“端到端”方式一般采用深度神经网络(DNN)。

注:更多编码、解码等技术细节,感兴趣的同学可看《CUI三部曲之语音识别——机器如何听懂你的话?》

转载请注明:http://www.0431gb208.com/sjszjzl/259.html