来源:钥城网
年2月19日,出门问问联合西北工业大学联合推出全球首个面向产品和工业界的端到端语音识别开源工具——WeNet。自发布以来,WeNet因其简洁性、易用性和产品优先(ProductionFirstandProductionReady)的定位,受到了广泛 WeNet1.0正式发布从横空出世到迅速流行
年10月,WeNet项目在出门问问内部启动,经过3个月的内部开发于年2月初在Github发布了第一个开源版本。随后WeNet快速更新多项重要功能,在学术界和工业界引起了热烈反响。年6月,WeNet正式发布1.0版本,其完善的功能和优秀的性能极大地赋能了众多行业的语音识别应用。
国产开源端到端语音识别框架流行度
相较于目前主流语音识别开源工具,WeNet在研发之前就明确了几项基本原则,以指导项目的开发。
易用性:使用方便,提供一键式训练脚本、预训练模型和多平台运行时工具。
可用性:专注于ASR落地,提供一套适合工业场景的性能最优的训练和部署方案。
可读性:代码简明直接,减少抽象,提供详实的注释和文档,方便语音识别初学者学习。
从WeNet1.0版本的功能,可以看出WeNet的开发团队一直坚持践行着这些基本原则,不忘初心,方得始终。
支持Aishell-1,Aishell-2,Librispeech,Gigaspeech,Multi_cn一键式脚本,提供数据量最大的中文和英文预训练模型,在Aishell-1,Aishell-2和Gigaspeech上准确率达到SOTA。
推理方案支持Android平台和x86平台,支持基于GRPC和Websocket的服务端推理和端侧推理。
支持时间戳,端点检测,长语音模式,语言模型等工业场景关键功能。
提供中英文双语文档和详尽的代码注释,WeNet步行街 WeNet“小而精”广泛赋能各行业
WeNet一经问世,即被广大用户誉为“产品化集成度最好的框架”。根据不完全统计,目前已有数百家公司采用WeNet进行语音识别产品研发,或借助WeNet设计思想来构建自己的语音识别系统。这其中包括几十家互联网和其他垂直行业的知名头部公司,其应用范围涵盖了智能车载、智能家居、智能客服、音频内容生产、直播、会议等大量语音识别应用场景。
出门问问内部利用WeNet方案,在各个真实场景上相比原系统获得了10%-30%以上的相对提升。WeNet的用户也均反馈在各类产品中得到了同数量级的一致性提升。
西北工业大学计算机学院教授、博士生导师、音频语音与语言处理研究组(ASLP
NPU)负责人谢磊表示:和其他语音识别相关工具包“大而全”的理念不同,正如WeNet名字中所表达的,WeNet是面向大众都可以快速学习和在实际应用部署的工具包,具有鲜明的“小而精”的特色。WeNet基于SOTA的深度学习模型架构,具备数据准备、模型训练、工程部署整条易用的链路,同时融合了面向实际应用的各种特性,比如面向领域适配增加了语言模型的支持,又如时间戳和端点检测等功能的支持等。据了解,很多高校都已经使用WeNet作为学习和科研工具,同时众多公司也在实际产品中应用WeNet作为重要部署工具。WeNet的出现解决了目前主流语音开源工具之痛点,且各项性能指标达到业界最优,成为世界级技术领先的开源工具。如果用简单的几个词总结WeNet1.0的特性的话,那就是“更快、更高、更强、更有生产力”。
更快:WeNet1.0中支持了多机多卡的分布式训练,训练更快;解码时也可以做历史chunk限制,解码更快。
更高:更高的识别率。WeNet1.0中升级U2算法到U2++,识别率更高,并支持了语言模型,进一步提高识别率。目前WeNet的识别准确率和速度指标均达到业界最优。
更强:更强大的功能。WeNet完善了标准数据集的支持;支持了时间戳、n-best、对齐、endpoint等识别强相关任务;并建立了系统的文档。
更有生产力:在x86server和on-deviceandroid的基础上,结合语言模型支持、gRPC支持、n-best、时间戳、endpoint等的支持,WeNet1.0已经构建了一个完整完善的语音识别所需的方方面面的能力,也有工业界应用的典型案例。
WeNet使用最前沿的深度学习模型结构U2++
WeNet开放开源AI生态生生不息
“只有愿意以自己为基石,开放自己的资源和能力,形成的产业链和生态体系,才能够生生不息的去发展。”这也是WeNet的团队初心。
WeNet是由出门问问发起和主导的开源项目,同时Wenet能够快速发展并获得广泛的认可,离不开西北工业大学和开源社区的大力支持。
联国内顶级语音实验室
出门问问和西工大ASLP实验室(音频、语音与语言处理研究组)长期保持着密切合作。年双方合作研发了TicWatch手表上的语音合成(TTS)技术,实现了首个支持语音播报的智能手表,近期则一直联合探索端到端语音识别架构,以及最适合工业界应用落地的语音识别方案。如今WeNet成功用于各行业语音产品的事实已经证明,CTC+WFST+AEDRescoring方案是目前端到端语音识别的最佳实践方案之一,而WeNet能够在项目一开始就找到这条正确的路,离不开ASLP实验室的老师同学们提供的宝贵经验和建议。
拥抱开源社区的力量
WeNet是站在巨人肩膀上的。Espnet提供了模型的实现方法,Pytorch生态提供了简单高效的建模和推理框架,Essen和Kaldi提供了CTCWFST的构建和解码的实现方法。正是使用和借鉴了这些优秀开源项目,WeNet才能在短期内支持众多的功能并提供优秀的性能。
WeNet的开发团队中除了出门问问的工程师,也包含来自京东、网易互娱、喜马拉雅、Bigo、商汤科技、声瀚科技等公司的同学,他们利用自己的业余时间帮助WeNet完善功能、修复bug、解答用户问题,为WeNet的发展做了巨大的贡献。
希尔贝壳和Gigaspeech社区则分别为WeNet提供了中文Aishell-2和英文Gigaspeech数据,助力WeNet发布了高性能的中文和英文预训练模型。
喜马拉雅团队使用WeNet构建了自己语音服务,并为WeNet项目贡献了其grpc版本的服务端实现。作业帮团队使用ONNX对WeNet模型进行推理优化,并将其实现方案分享给了社区。
而对WeNet最重要的贡献则来自于每一位WeNet的用户,Wenet的 正是因为开源,让WeNet可以有机会经受千锤百炼,在遇到问题时能及时得到八方支援,迅速成长为一个健壮的高性能的框架。
“这是一个大生态、大协同、大成长的时代,开放开源,共生协同,各得其所,是我们面向未来的态度。”目前,出门问问WeNet正在迅速迭代,专注语音识别,坚持“ProductionFirstandProductionReady”,追求极致的产品力,同时也追求项目和工程上的极致。出门问问WeNet秉以侠之大者、为国为民,将与开发者们共同探索AI和中国科技的未来。
转载请注明:http://www.0431gb208.com/sjszyzl/7492.html