AIPM认知系列第三篇,字数:+,速读需4分钟。
从早期苹果的Siri,到最近国内的智能音箱大战,越来越多AI语音产品走入了大家的生活。
近几天我也在思考,相比已有更落地方案的计算机视觉技术,AI的语音技术在产品应用中的本质是什么?这个思考我也跟一些语音领域的专家探讨过,而其中我个人的理解是:
AI语音技术的本质,通过效率的提升,场景的便捷,重新定义了用户体验。
为什么我这么理解?那我们先来看看语音有哪些天然属性:
提升效率:一分钟字的速度靠打字是无法超越的,所以特定行业,语音的技术可以大大的提升人机的效率。
操作便捷:解放了你的双手,除了一些基本的操作,无需要每个字都操作键盘或点击屏幕了。
学习成本:对于不认字的老人和小孩,可以用语音来进行检索和进行操作,对于不会拼音的人,也可以使用语音识别。
所以,以下AI语音相关的分享,会围绕两个方面:
语音技术:语音识别和语音合成
语音技术应用和未来思考
1.语音技术:语音识别和语音合成
1.1语音识别:ASK
语音识别(AutomaticSpeechRecognition)是以语音为研究对象,通过语音信号处理和模式识别让计算机自动识别人类口述语言。
简单来说,就是让机器可以听得懂人话。
其中比较核心的部分是语音听写:就是将语音信息转化为文字信息。
中文语音听写的技术原理,如下:
说出一段话,比如:「产品经理」,机器收到只是一段声波信号。
进行信号的预处理,如:降噪,消除回音…等。
特征提取,如:说了几个字,音调是什么…等。
通过声学模型匹配,输出“音”:chan2,pin3,jing1,li3。(拼音举例)
通过语言模型处理,最终得到文字:产品经理。
而这里的特征提取,声学模型和语言模型在技术实现上,有两种方法:
传统:隐马尔可夫模型(HMM)
端到端:深度神经网络(DNN)
目前语音识别技术主要是通过DNN实现的,特定场景下最高可以达到97%的识别率。
1.2语音合成:TTS
语音合成(Text-To-Speech)是计算机将自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
简单来说,就是机器讲文字朗读出来。
中文的语音合成技术原理,如下:
先通过规则把一段文字分词,如:我
爱
产品
经理。
把这段文字进行韵律的处理,标出是发什么音。
根据语音库的发音,进行单元的拼接。
最后就可以播放出这段语音了。
目前主要实现是两种方法:
拼接法:把录音的句子切碎成基本单元存储起来,再根据需要拼接起来。
参数法:通过录音提取波形的参数存储起来,早根据参数转化为波形。
拼接法的优点就是更自然,但是缺点是需要大量的录音,和存储。
参数法的优点就是存储小,但是缺点就是不够自然,听起来就是怪怪的机器发音。
另外谷歌发布的WaveNet是基于语音网络使用生成算法制作而成的,相对于以前的拼接法、参数法,在声音表现力上更具优势。
此外,语音合成的技术主要体现在四个方面
表现力:不同年龄,性别特征以及语调,语速的表现,个性化。
音质:声音的清晰度,无杂音
复杂度:减少音库的体积,降低运算量及系统开销。
自然度:音律规则,间隔停顿。
目前的语音合成技术相对比较成熟,进一步优化的同时,大家的重点都放在了表现力上,以符合更多的场景应用,满足不同人对个性化的需求。
举个例子:
前一段时间,我打车时候看到司机师傅使用高德的语音导航,语音合成用的是一个小朋友的声音,我们就聊了起来,司机师傅说他才刚开始拉活,路不熟,他不喜欢郭德纲的声音,话忒多,他用小朋友的声音,一个是语速慢,另外一个是吐字清晰,不会因为听不清楚走错路。
这个就是在不同场景下用户对于表现力的个性化需求,因人而异。
1.3产品应用中涉及的语音相关技术
目前我们用
转载请注明:http://www.0431gb208.com/sjszjzl/1892.html