毕业论文
您现在的位置: 语言识别 >> 语言识别优势 >> 正文 >> 正文

重磅升级标贝语音识别30版上线,实现

来源:语言识别 时间:2024/8/28

语音识别技术,也被称为自动语音识别AutomaticSpeechRecogntion(ASR),是通过计算机自动将人类的语音内容转换为相应文字的技术。通俗来讲,语音识别就是机器的“耳朵”,在人与机器进行语音交流的时候,让机器听得懂人类在说什么的前提。

近几年,随着深度学习技术在语音识别的应用,使得语音识别的性能得到了显著提升,交互场景从生活扩展到企业应用,需求也从识别的速度、精度转移到一些更加复杂的问题,对语音交互技术提出了更高的要求。

近期,标贝科技语音识别技术3.0版发布升级。经过一年多的算法攻坚,标贝科技研发团队在前端语音信号处理、声学模型、解码方式等各项技术实现全面升级,不仅在准确率及识别速度方面有了明显提升,而且还实现了快速纠错和热词实时更新等功能,进一步满足了行业用户的需求,提升语音识别体验。

全新技术升级语音识别更高效

●语音转写识别率极大提升

标贝ASR3.0在conformer端到端模型结构的基础上创新改进,在建模单元上引入了音节信息,将传统的GMM-HMM的对齐信息引入到前期训练中加速收敛,实现了在复杂环境下拥有更好的鲁棒性和识别效果。

无论是不同设备录制、不同网络传输、还是带有一定噪声和干扰的语音,都可以实现准确转写。在通用场景测试中,标贝ASR3.0准确率绝对提升3%-5%,达到行业领先水平,识别速度提升将近2倍。

●更灵活高效的解码方式

标贝ASR3.0在解码方面借鉴了传统解码器对声学、发音词典、语言模型的融合方式,通过wordnetworks融合发音词典的方式构图,以此来达到语言模型快速优化、降低解码资源占用的目的。

不同于shallowfusion,标贝ASR3.0解码器在出词之前就加入语言模型的分数,进行解码路径的扩展,以此达到类似conformer结构中decoder部分的自回归效果。搜索时采用tokenpassing的方式,能够轻松满足产品上对识别结果的衍生需求,比如:时间戳、置信度等功能,为不同领域客户提供更细粒度的语音识别服务。

●热词及自定义语言模型快速生效

标贝ASR3.0兼顾了热词快速生效和自定义语言模型无感知热更新的功能。对于不同的特殊场景需求,用户只需要上传热词或者更新一下对应的语言模型即可,以尽量低的成本,提供更加流畅的识别体验,不影响正常的运行使用。

更多能力加持助力语音识别加速落地

据中商产业研究院统计,年中国智能语音市场规模达到.96亿元,同比增长19.2%,预计年中国智能语音市场规模将增长至.91亿元。其中,语音识别作为AI领域最为成熟落地的技术之一,也将继续加速在各垂直行业的渗透和布局。

作为国内领先的智能语音交互与AI数据服务商,标贝科技深耕语音交互领域多年,在技术创新和数据服务双轮驱动下,为AI产业打造更精准、更高效的语音识别服务。

针对专业领域应用场景,标贝科技推出“ASR自学习工具”。用户在语音识别控制台上传专有领域或行业积累的文本数据,通过对这些训练语料做模型训练,来生成自己的自学习个性化模型和热词模型,有效提高专有领域场景下的语音识别准确率。

此外,为满足不同语种的客户群体需求,标贝科技语音识别今年在语种丰富度上持续发力。在支持常见中文、英文识别基础上,开放了粤语、维语两种方言识别能力。经过长期的打磨训练和效果调优,目前标贝科技语音识别各语种已广泛应用于车载语音交互、会议记录转写、视频字幕、电话录音质检等业务场景。

作为新一代智能语音识别引擎,标贝科技ASR3.0已经在

转载请注明:http://www.0431gb208.com/sjszjzl/7401.html

  • 上一篇文章:
  • 下一篇文章: 没有了