温馨提示:文末有:优惠券(金额很大)for三节课《产品经理P2(进阶)系列课程》《互联网业务数据分析实战》。
语音识别(AutomaticSpeechRecognition,简称ASR),是语音交互中最基础的一个AI技术环节,大家可以先在手机上体验siri等各种语音助手,或者各种智能音箱,找找感觉:)
本文,是我收集了很多线上/线下的相关信息后,提炼出的AI产品经理“最必要”了解的ASR技术知识和行业现状(多了没必要,少了又不足以入门、准备面试或工作实战);不仅帮大家节省了时间,更是过滤了很多无用信息和过于技术的内容。
目录
一、核心概念:语音识别ASR、远场语音识别(语音激活检测VAD、语音唤醒、麦克风阵列、全双工、纠错)
二、当前技术边界
三、瓶颈和机会
附:相关资料(文章和书籍)
1
核心概念
1、语音识别(AutomaticSpeechRecognition),一般简称ASR;是将声音转化为文字的过程,相当于人类的耳朵。
1)语音识别原理流程:“输入——编码——解码——输出”
语音识别,大体可分为“传统”识别方式与“端到端”识别方式,其主要差异体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型(HMM),而“端到端”方式一般采用深度神经网络(DNN)。
注:更多编码、解码等技术细节,感兴趣的同学可看《CUI三部曲之语音识别——机器如何听懂你的话?》
转载请注明:http://www.0431gb208.com/sjszjzl/259.html