毕业论文
您现在的位置: 语言识别 >> 语言识别发展 >> 正文 >> 正文

智能语音识别技术入门系列上CDA数

来源:语言识别 时间:2024/9/1
本系列文章开始,我们将一起探索自动识别、语言处理技术所包含的核心算法、模型及未来的发展趋势。本篇文章我们主要讨论语音识别的基本概念。并理解语音识别技术的流程。(一)自动语音识别技术ASR自动语音识别,简称ASR。这项技术是使人与人,人与机器更顺畅交流的关键技术。随着人们对生活的仪式感的追求,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统也变得越来越流行。在这些设备和系统上,以往鼠标、键盘这样的交互方式就不再延续像用在电脑上一样的便捷性了。而语音作为人类之间自然的交流方式,在这些设备和系统上就成为了更受欢迎的交互方式了。如果有一个语音到语音翻译系统其实就可以完美消除这个交流壁垒。这样的话就算语言不通人们也可以自由地进行交流。比如我们现在这里看到的就是一个典型的语音到语音的翻译系统,可以看到,语音识别是这个流水过程中的第一环。(二)人机交流场景我们说语音技术可以极大地提升人机交流的能力,其中最流行的应用场景就有大家所熟知的语音搜索、个人数码助理、游戏、起居室交互系统和车载信息娱乐系统。对于语音搜索而言,它能使用户直接通过语音来搜索餐馆、行驶路线和商品评价的信息。这极大地简化了用户输入搜索请求的方式。目前,语音搜索类的应用在各类品牌和系统的手机上都已非常流行。第二个个人数码助理已经作为原型产品出现了十年,siri系统就是从它变得流行起来的。自那以后,很多公司都发布了类似的产品。我们把这种系统简称PDA。PDA系统知晓我们在移动设备上的信息,了解一些常识并记录了用户与系统的交互历史。有了这些信息后,PDA可以更好的服务用户。比如,可以完成拨打电话、回答问题和音乐搜索等工作。而用户所需要做的只是直接向系统发出语音指令即可。在融合语音技术之后,游戏的体验将得到很大的提升。例如,玩家可以和游戏角色对话以询问信息或者发出指令。最后,起居室交互系统和车载信息娱乐信息在功能上十分相似。这种系统允许用户使用语音与之交互,我们可以通过他们来播放音乐、询问信息或者控制系统。当然,由于这些系统的使用条件不同,设计这样的系统时会遇到不同的挑战。(三)语音对话系统的组成在上述的所有应用场景和系统讨论的都是语音对话系统。如下图所示,语音对话系统通常包括四个主要组成部分的一个或多个:语音识别系统将语音转化为文本、语音理解系统提取用户说话的语义信息、文字转语音系统将内容转化为语音、对话管理系统将前面的三个系统连接起来并完成与实际应用场景的沟通。这些内容对建立一个成功的语音对话系统都是很关键的,我们的

转载请注明:http://www.0431gb208.com/sjszyzl/7436.html