毕业论文
您现在的位置: 语言识别 >> 语言识别发展 >> 正文 >> 正文

智言科技第三代语音测评引擎Smarts

来源:语言识别 时间:2025/7/2
北京白癜风手术 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/bdf/

中英文语音评测技术已广泛应用于中英文听说教学、中高考、社会化考试等各类场景,为了更好地赋能教育信息化和学业考试改革,实现核心技术的国产自主研发,在国家级专家团队的带领、近百名博士硕士研究生团队的不懈努力下,历时十个月,经过多方权威测试、行业头部客户的试点和全面应用,现面向全行业正式发布智言科技第三代语音测评引擎Smart-speech。

智言科技语音评测技术是基于专家评分标准而研发的,它支持英文、中文等多语种,适用于基础题型和高阶题型,具备速度快、评分准、维度全、服务稳、接入易等优势。此次语音评测技术升级标志着智言科技在AI语音评测领域又跨出了一大步,跻身行业前列水平。

01智言第三代技术框架简介

行业上一代的评测技术是基于混合模型(HybridModel)而形成的,该模型一定程度上拥有训练难度大、鲁棒性差、资源需求量大等缺点。而智言第三代语音评测技术,它以深度学习的端到端框架(ConformerEncoder+CTC/AttentionDecoder)为基础,在前者基础上进行了多项创新。首先,我们融合了语言模型,这样就可以利用现有的文本数据,通过上下文信息收集,来提升模型的上下文的理解能力。其次,在端到端框架的基础上,我们使用了多任务学习(Multi-TaskLearning)算法,同时对音素和单词进行建模,得到额外的有用信息,而且通过学习多个相关的任务,模型可以有更好的泛化能力。基于ConformerEncoder+CTC/AttentionDecoder框架的语音评测技术

02评分准、速度快、鲁棒性高

第三代语音评测引擎,它支持多语种,适用于基础和高阶题型,支持云端服务器部署,框架更加统一。智言改进后的端到端框架,能够更好的发挥大规模的语音和文本数据的效果,提升识别的准确率,在音素级别准确率相对提升25%以上。

智言语音识别

由于篇章题型输入语音时长较长(长达3分钟),给移动端离线部署篇章题型带来了挑战,更高的算力要求和内存要求让移动端模型部署在一些低端手机上成为难题,智言AI端到端框架将计算内存缩减50%左右,同时将计算速度提升50%左右,让移动端也能够轻松地支持音标、单词、句子、篇章等全部基础题型。

智言语音测评部分截图

实验室中训练良好的引擎,一旦处于复杂的噪声环境,其识别准确率便会急剧下降,这些噪声主要来自于信道偏差,环境噪音,被污染的测试数据与训练数据的不匹配等。数据增强技术(DataAugmentation)从噪声、语速、混响、语音振幅和跨信道等多角度将训练集扩充到数万小时,能够让模型在多变的实际场景中依然发挥出稳定的效果,进一步提升模型的鲁棒性,得到更加准确的评测分数。

03全面支持各类应用场景和评测需求

第三代语音评测技术支持多种题型的评测,如单词、句子、篇章等,并输出准确度、流利度、完整度结果,同时智能检测用户朗读过程中的语速、停顿次数等。评测结果毫秒级返回,低延迟,响应迅速。

平台支持在线和离线调用,同时为了便于开发者快速接入语音评测能力,提供WebAPI、以及Android、iOS、H5、C++等平台SDK以供调用,满足不同场景下的开发需求。

如果说将语音测评技术的发展比喻成人类的进步,那么第一代就是蒸汽时代,语音测评开始偏向于用计算机检测;第二代就是电气时代,语音测评有了自己的模型,也逐渐步入正轨;而第三代就是互联网时代,语音测评性能更稳,检测速度更快,更能为学生提供更有针对性的个性化训练。

未来,智言科技也会在语音评测技术上继续精进,赋能教育数字化、智能化,为学习者提供更优质的语音学习服务,支持考、教、练全套产品、让个性化评测覆盖全平台。

END

INTRODUCTION

智言科技

公司简介

苏州智言信息科技有限公司成立于年8月,依托于天津大学天津市认知计算与应用重点实验室,是一家致力于教育行业的人工智能公司。团队拥有近名博士和硕士研究生,曾承担语音领域唯一的国家计划重点项目,并且拥有30多项语音、自然语言处理相关项目的研究经验。

公司以联合实验室的言语处理技术为基础,自研出行业领先的语音评测技术,可针对中文、英文等语种进行多维度的评测打分,并提供基础、半开放、开放题型以供选择,致力于用AI技术赋能教育。

转载请注明:http://www.0431gb208.com/sjszyzl/9659.html