关于语音识别技术在会议中的应用

来源：语言识别时间：2022/8/17

北京治疗白癜风的中药 http://m.39.net/pf/a_5060463.html

文/王唯上海云思智慧信息技术有限公司产品研发中心副总经理

1.语音识别技术的现状

语言是人类最自然的交互方式。数万年来人类通过进化获得的语言交流能力，相比其他的交互方式具有更多的优势。当计算机发明之后，人类与机器的交流虽然暂时受限于鼠标键盘等面向机器的交互方式，但却从不阻挡人类让机器能够听懂人类的语言、理解语言中的内在含义、做出正确回答的探索。这些场景反复出现在科幻电影中，那些智能先进的机器人助手，通过语言与人类完成自由地交流。

纵观计算机模拟人类语言交流的整个过程，包括倾听-理解-思考-表达四个阶段。当前计算机领域，按照技术难易度及普及顺序，大致也可以分为以下四类与之相对应的技术研究：

自然语言生成——将大脑产生的思想转换成语言

语言合成——将语言转换为相应的语音

语音识别——识别语言中表达的语音内容

自然语言理解——理解语音表达的语言含义

其中，语音识别技术是指机器自动将人的语言转成文字，又称AutomaticSpeechRecognition，即ASR技术。它是一门涉及声学、语音学、语言学、情感学、心理学、信息理论、模式识别理论、数字信号处理、人工智能、数理统计学等多学科交叉的科学。近年来，随着人工智能的兴起，语音识别技术在理论和应用方面都取得大突破，不仅开始从实验室走向市场，并且已逐渐走进我们的日常生活。

语音识别的本质是一种基于语音特征参数的模式识别，即通过学习，系统能够把输入的语音按一定模式进行分类，进而依据判定准则找出最佳匹配结果。

基于模式匹配原理的语音识别系统框图

从语音识别算法的发展来看，语音识别技术主要分为三大类，第一类是模型匹配法，包括矢量量化(VQ)、动态时间规整(DTW)等；第二类是概率统计方法，包括高斯混合模型(GMM)、隐马尔科夫模型(HMM)等；第三类是辨别器分类方法，如支持向量机(SVM)、人工神经网络(ANN)和深度神经网络（DNN）等。

目前语音识别技术已经是相对成熟（商用）的技术，各家主流公司均宣称语音识别率达到了97%，甚至98%。现在语音识别已用于许多领域，主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台，智能客服等。但需要指出的是，主流公司宣称的语音识别率一般是需要用户在安静环境下，近距离、原地不动、慢慢地、认真清晰发音时测试的结果。在实际场景，往往有很多种异常情况都会导致语音识别的效果大打折扣，比如距离太远、发音不标准、环境嘈杂、中间有时不时的打断等等。

所以语音识别技术在实际应用中，受限于特定的场景，同时还需要有各种解决方案来配合。这虽然是一个应用落地比较现实的问题，但并不影响我们做产品demo和初步的产品化工作，反而是我们AI产品经理的发挥机会——用产品体验设计来优化（弥补）纯技术效果的不足。

　2.语音识别技术的发展与挑战

在协作工作模式下，我们常常通过开会来布置、协调、研讨工作，以达成集思广益、信息交流、加强领导、协调矛盾等目的。虽然现代办公中，部分工作场景可以通过邮件、电话、工作群、OA系统、博客讨论组、远程视频会议等在线方式替代，但面对面的会议沟通仍然是办公行为中非常重要的方式。这也是在生产工具私有化后，共享移动办公未能占据办公模式中绝对地位的重要因素。

正是由于会议的重要性，在基础建设中会议区单位面积的投资比例数倍于办公区域。会议室建设的早期阶段，其建设目标集中定位在电子会议室。大家更

转载请注明：http://www.0431gb208.com/sjszlfa/1277.html

上一篇文章：有关语音识别技术的所有信息

下一篇文章：职场人士想了解免费文本转语音的软件有哪些