一年前,AllinAI的百度在北京发布了百度AI输入法,即百度输入法的8.0版本。当时,百度特意将著名主持人、“中国好舌头”华少请到了现场担任主持,在华少的主持之下,百度高级副总裁王海峰、百度语音技术部总监高亮以及百度中文输入法负责人蔡玉婷悉数登场。王海峰向雷锋网在内的媒体表示:百度输入法是百度AI技术应用的桥头堡,新的AI技术将会首先应用在输入法上,未来将会赋予更多AI能力,提升人机交互的体验。时隔一年之后,1月16日,百度输入法在北京举办“AI·新输入全感官输入2.0”发布会,这次,百度请来的主持人变成了现象级网综《吐槽大会》当家主持张绍刚,经过一年的打磨和发展,百度输入法AI探索版正式亮相,据介绍,这是一款默认输入方式为全语音输入,并调动表情、肢体等进行全感官输入的全新输入产品。雷锋网注:百度高级副总裁王海峰同时,在语音技术上,百度输入法又取得了一项对全球学术界和工业界都具备重大意义的技术突破——流式截断的多层注意力建模(SMLTA)将在线语音识别精度提升了15%,并在世界范围内首次实现了基于Attention技术的在线语音识别服务大规模上线应用。发布会现场,百度高级副总裁王海峰再一次重申了百度输入法是百度AI落地“桥头堡”的战略定位,也给出了输入法行业的“未来画像”,他认为,虽然目前的输入法产品主要应用于手机端,但未来的输入法将应用于各种智能设备与用户的交互,并走向世界,为全球用户提供更多元的输入方式。据介绍,截至年底,百度输入法月活跃人数已达5亿,语音日请求量峰值突破5.5亿,AR表情使用次数超过1亿。同时,百度海外输入法全球安装量超过1亿,支持种语言,覆盖全球个国家地区,并已与超过个全球知名IP达成合作。概括来说,百度输入法AI探索版功能创新共有三点:新交互、新表达、新探索。新交互:首次提出流式截断的多层注意力模型(SMLTA)此次发布的百度输入法AI探索版,是一款全语音交互的输入法,其默认输入方式为语音输入。雷锋网注:百度语音技术部总监高亮首先,在线语音识别领域:百度首次发布流式截断多层注意力建模(SMLTA),据介绍,这是中文在线语音识别历史上的两个重大突破:世界上首次实现了局部注意力建模识别精度超过全局注意力模型;世界上第一次大规模部署在线语音交互注意力模型。语音领域Attention模型(注意力模型)的提出已有好几年的时间,注意力模型的核心思想,是通过机器学习的方法,把一句话中每个音节或者汉字的音频特征,从整句话的音频特征中,通过机器学习的方法,自动的挖掘出来。其建模过程完全抛弃了传统语音识别的状态建模和按语音帧进行解码等传统技术框架。直接实现了语音和文本一体化的端到端建模,从而成为公认的有更高的建模精度的建模方法。近几年,不少专家和学者都在语音识别任务中尝试了注意力模型,实验室环境下,相对于传统技术,也获得到了一系列的提升。但是截止目前,注意力模型在在线语音服务中的大规模使用,一直鲜有成功案例。主要是因为语音识别的注意力模型存在两个问题:流式解码的问题和长句建模的精度下降问题。针对以上问题,百度语音技术团队提出了SMLTA模型(流式多级截断注意力模型Streamingtrancatedmulti-layerattention),这种建模方法的识别率不但超越了传统的全局Attention建模,同时还能够保持计算量、解码速度等在线资源耗费和传统CTC模型持平。据介绍,SMLTA模型是基于CTC的尖峰信息对语音流进行截断,然后在每一截断的语音小段上进行当前建模单元的注意力建模。SMLTA把原来的全局的整句Attention建模,变成了局部语音小段的Attention的建模。同时,为了克服CTC模型的不可避免的插入删除错误对系统造成的影响,该算法引入一种特殊的多级Attention机制,实现特征层层递进的更精准的特征选择。最终,这种建模方法的识别率不但超越了传统的全局Attention建模,同时还能够保持计算量、解码速度等在线资源耗费和传统CTC模型持平。这一技术能够解决传统Attention模型在识别中的时延性,以及因此导致的无法进行大规模在线语音实时交互的问题,并将在线语音相对准确率提升15%,百度输入法在线语音相对准确率依然好于最优竞品15%。迄今为止,百度语音识别模型经历了从DNN、CNN、LSTM和深度尖峰一代、二代的迭代再到最新的SMLTA模型迭代过程,至于这种演变过程所遵循的依据是什么,高亮在接受包括雷锋网(
转载请注明:http://www.0431gb208.com/sjszlff/7538.html