语音识别技术简单来说指的是机器或程序完成接受口令、解释声音含义、理解和执行口头指令所需的技术。
在当下智能时代,智能终端的应用普及面越来越广,相应的越来越多的场景在设计个性化的人机交互界面时,以对话为主的交互形式。而一个完整的对话交互是由过程是由“输入—分析—输出”三个环节共同组成一个闭环。其中,“输入”需要语音识别技术;“分析”需要自然语言处理技术;“输出”需要语音合成技术。其中,“分析”环节由编码和解码组成,编码主要用于对输入内容的特征进行提取;解码则是通过声学模型和语言模型进行解析。语音识别技术是对话交互的开端,是保证对话交互高效准确进行的基础。
语音识别技术自20世纪50年代开始步入萌芽阶段,发展至今,主流算法模型已经经历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段
语音识别三大关键技术
数据、算法及芯片是语音识别技术的3个关键,大量优质的数据、精准快速的算法和高性能语音识别芯片是提升语音识别的核心。
上文介绍了使用GPU并行计算进行深度学习模型训练,来加快收敛速度,减少训练时间的原理。(回顾上文:单模型最多使用张NvidiaVGPU,深度学习模型训练周期缩短5倍!)
本期小编就通过一个真实案例,帮助大家更好的了解在HPC云平台上进行语音识别深度学习模型训练的工作原理,以及平台具体能提供哪些服务来帮助训练高效的完成。
项目背景
某人工智能企业从事语音设备相关技术研发,A轮融资后,随着规模急剧扩张算力需求增加,急需一个灵活、弹性的HPC方案来满足语音识别相关模型训练。
怎样高效的完成相关模型训练?缩短训练时间?
传统的CPU或者单一处理器几乎无法快速单独完成一个完整的模型训练过程,主要在于CPU内部仅含有少量的逻辑单元,且指令执行是逐一进行的串行计算,使用该架构进行语音识别运算的处理时间过长,无法满足海量数据计算的实时性需求。因此,能提供海量数据处理、存储以及高性能运算能力的云计算技术成为语音识别行业的应用首选。
哪种是最适合该企业的HPC解决方案?
由于计算量、训练数据量极大,且需要大量的并行运算,目前语音识别的模型训练部分基本都放在云端进行。在云端训练中,多GPU并行架构是终端训练常用的基础架构方案。计算和训练过程会消耗大量计算机时和内存,企业需要使用大量的GPU且支持多卡任务,同时要能支持AI常用框架如Notebook、Pytorch、Tensorflow及Kaldi等,便于大规模分布式训练和推理同时进行。
针对这些需求,企业接入了算力平台,零IT经验的工作人员也能通过浏览器直接使用Notebook、Pytorch等触发人工智能训练任务,操作十分简单。
计算数据需要人工实时监控么?
云E通过脚本夜间自动上传脱敏后的训练数据,自动触发训练流程。全自动上传可以充分利用带宽,帮助用户快速高效的上传文件。另外,云E还提供多种数据安全措施,加密、审计、监控、防火墙等,全方位保障用户数据安全。
结论和成果
该方案不仅支持多团队、多任务并行的模型训练,单模型最多时使用40张NvidiaVGPU,让训练周期比在用户本地缩短至1/5,使得模型训练更加高效。同时企业能将很多研究型的训练任务置入云端,通过大规模并行计算来快速验证结果,极大提升了企业的创新速度,完美助力了企业发展和创新。
实际上平台不仅为初创人工智能企业提供解决方案,也为人工智能行业用户搭建了一体化的数据、算法、算力服务平台,提供从数据集创建、数据预处理、数据标注、模型训练、模型超参调优、模型部署等全流程的开发环境。很好的解决了传统HPC算力的限制与问题。
平台服务亮点:
服务一体化:提供从数据、算法到算力的全流程服务;
使用便捷:无需安装,软件开箱即用,且支持图形界面、命令行、工作站多种作业方式;
软件开放可升级:平台部署软件多为开源软件,无需担心厂商锁定;
硬件自动更新:接入云端资源后,硬件持续更新,用户可实时调用最新硬件资源等等。
云E同时提供了完整的人工智能行业解决方案,助力人工智能领域的研究和发展。
转载请注明:http://www.0431gb208.com/sjslczl/2081.html