文/王唯上海云思智慧信息技术有限公司产品研发中心副总经理
1.语音识别技术的现状
语言是人类最自然的交互方式。数万年来人类通过进化获得的语言交流能力,相比其他的交互方式具有更多的优势。当计算机发明之后,人类与机器的交流虽然暂时受限于鼠标键盘等面向机器的交互方式,但却从不阻挡人类让机器能够听懂人类的语言、理解语言中的内在含义、做出正确回答的探索。这些场景反复出现在科幻电影中,那些智能先进的机器人助手,通过语言与人类完成自由地交流。
纵观计算机模拟人类语言交流的整个过程,包括倾听-理解-思考-表达四个阶段。当前计算机领域,按照技术难易度及普及顺序,大致也可以分为以下四类与之相对应的技术研究:
自然语言生成——将大脑产生的思想转换成语言
语言合成——将语言转换为相应的语音
语音识别——识别语言中表达的语音内容
自然语言理解——理解语音表达的语言含义
其中,语音识别技术是指机器自动将人的语言转成文字,又称AutomaticSpeechRecognition,即ASR技术。它是一门涉及声学、语音学、语言学、情感学、心理学、信息理论、模式识别理论、数字信号处理、人工智能、数理统计学等多学科交叉的科学。近年来,随着人工智能的兴起,语音识别技术在理论和应用方面都取得大突破,不仅开始从实验室走向市场,并且已逐渐走进我们的日常生活。
语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。
基于模式匹配原理的语音识别系统框图从语音识别算法的发展来看,语音识别技术主要分为三大类,第一类是模型匹配法,包括矢量量化(VQ)、动态时间规整(DTW)等;第二类是概率统计方法,包括高斯混合模型(GMM)、隐马尔科夫模型(HMM)等;第三类是辨别器分类方法,如支持向量机(SVM)、人工神经网络(ANN)和深度神经网络(DNN)等。
目前语音识别技术已经是相对成熟(商用)的技术,各家主流公司均宣称语音识别率达到了97%,甚至98%。现在语音识别已用于许多领域,主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台,智能客服等。但需要指出的是,主流公司宣称的语音识别率一般是需要用户在安静环境下,近距离、原地不动、慢慢地、认真清晰发音时测试的结果。在实际场景,往往有很多种异常情况都会导致语音识别的效果大打折扣,比如距离太远、发音不标准、环境嘈杂、中间有时不时的打断等等。
所以语音识别技术在实际应用中,受限于特定的场景,同时还需要有各种解决方案来配合。这虽然是一个应用落地比较现实的问题,但并不影响我们做产品demo和初步的产品化工作,反而是我们AI产品经理的发挥机会——用产品体验设计来优化(弥补)纯技术效果的不足。
2.语音识别技术的发展与挑战
在协作工作模式下,我们常常通过开会来布置、协调、研讨工作,以达成集思广益、信息交流、加强领导、协调矛盾等目的。虽然现代办公中,部分工作场景可以通过邮件、电话、工作群、OA系统、博客讨论组、远程视频会议等在线方式替代,但面对面的会议沟通仍然是办公行为中非常重要的方式。这也是在生产工具私有化后,共享移动办公未能占据办公模式中绝对地位的重要因素。
正是由于会议的重要性,在基础建设中会议区单位面积的投资比例数倍于办公区域。会议室建设的早期阶段,其建设目标集中定位在电子会议室。大家更
转载请注明:http://www.0431gb208.com/sjszlfa/1277.html