语音转文字已是红海,VoiceAI从

来源：语言识别时间：2023/10/24

人工智能主要有三个研究方向：视觉识别、智能语音、自然语言处理NLP。其中，在语音识别领域，声纹识别属于相对蓝海市场，解决的主要是“我是我”的问题，多应用在安全验证场景。语音转文字赛道，各家的效果可能趋于0.1%、0.2%的差距，为了避免同质化竞争，VoiceAI（声扬科技）选择从“声纹识别”切入，给企业提供解决方案。公司在年下半年注册成立，年开始全面运营。VoiceAI有一个典型案例，就是服务了印尼养老基金。这是一个国家级的社保项目，覆盖印尼万人，于年5月2日起分批上线。此前，为了确保受益人尚且在世、避免养老金冒领等不合法操作，印尼居民需要去银行、养老机构等地进行现场认领，效率低下。如今，居民可以在线上选择指纹拍照、人脸识别、声纹识别三种方式之二进行认证。与合作伙伴一起拿下该项目后，VoiceAI负责其中的声纹识别部分。居民提前线上注册，通过麦克风录制一段音频，在养老金申领时，收益人需认读随机的数字，VoiceAI根据声纹比对判断是否为本人。“语音识别会涉及口音，对结果产生较大干扰，而声纹是由人体发音系统的物理结构决定，人体构造是独一无二的，所以声纹也是唯一的。”VoiceAI创始人兼CEO李亚桐解释。这个过程中，其实涉及语音识别＋声纹识别两种技术。语音识别是需要判断读出来的随机数字是否正确，能一定程度上排除机器，声纹识别的作用则要判断是否活体、是否本人。之所以把认读内容限制为数字，主要是避免遇到“文盲”。据悉，识别的准确率受场景、内容、语句长短影响，李亚桐告知，在养老基金这个项目中，可以做到99.5%以上的准确率。当然，倘若人因故声音沙哑，势必影响结果。“但声纹并不是唯一的验证方式，未来安全方面的趋势，一定是采取视觉、声纹、指纹等多因素综合验证。”李亚桐表示。此外，值得一提的是，VoiceAI并不是只做声纹识别，前端的麦克风阵列、信号处理、语音识别等团队都有自研技术。比如，VoiceAI服务了某知名油烟机厂商，为其输出语音指令控制模块。再比如，在某电力项目中，VoiceAI帮企业做语音转文字的部分。李亚桐告知，VoiceAI现处于项目制落地行业的阶段，目前侧重大金融、智能硬件等方向。金融主要是反欺诈场景，确定“你是不是你”，建立欺诈者的声音黑名单库；智能硬件则是语音控制模块，已经服务的油烟机厂商是按照“一次性开发费＋出货量抽成费计算”。据了解，VoiceAI（声扬科技）团队现在13人。联合创始人兼CEO李亚桐年本科毕业于南开大学，年获香港中文大学工商管理硕士学位，多年从业于身份安全及生物识别领域，曾为国内外多个公共安全、外交、金融、电子证件等商业项目提供基于生物特征识别的身份安全解决方案。CTO陈东鹏博士于年本科于中国科学技术大学，年获香港科技大学计算机科学与工程博士学位，随后在联想香港研发中心从事语音、数据挖掘和自然语言理解的研究工作，曾在IEEETASLP,ICASSP,Interspeech等语音领域的国际顶级期刊和会议发表多篇文章。公司于今年春节获得个人投资的天使轮融资，目前已启动Pre-A轮。

转载请注明：http://www.0431gb208.com/sjslczl/6081.html

上一篇文章：百度输入法开启AI时代,突破方言中英文

下一篇文章：超好用的OCR,可识别图片,可翻译,可朗