毕业论文
您现在的位置: 语言识别 >> 语言识别资源 >> 正文 >> 正文

融资中国AI语音识别行业发展研究报告

来源:语言识别 时间:2022/11/9

导言:

年11月,云知声向上交所递交了招股书,抱着成为“国内AI语音第一股”的决心冲刺科创板。年2月19日,上交所发布了《关于终止对云知声智能科技股份有限公司首次公开发行股票并在科创板上市审核的决定》(以下简称《决定》),《决定》中提到云知声主动撤回科创板申请。云知声终止科创板上市审核并给出官方解释:“撤回申请是出于公司战略发展因素考虑,公司并不会放弃IPO,未来会适时考虑重启IPO的计划。”

云知声作为国内最有可能在AI语音赛道上追赶人工智能及语音识别领域中科大讯飞霸主地位的“独角兽”,其背后作为“推手”的投资机构有着不可忽视的重要作用。云知声利用机器学习平台,在语音技术、语言技术、知识计算、大数据分析等领域构建了完整的人工智能技术图谱,同时云知声也是国内人工智能创业公司里实现商业化落地最好的公司之一。产业+资本的结合赋予了云知声高速发展的可能性。

本报告从投融资角度着手,按照行业投资环境、行业投资现状、行业投资竞争格局及行业投资未来发展趋势等四个板块概括性的分析云知声所在的语音识别领域,简单解构该行业的投融资活动。

概述

语音识别是发展未来人工智能的重要组成部分之一,是达到人机交互目的第一步。语音识别技术简单来说指的是机器或程序完成接受口令、解释声音含义、理解和执行口头指令所需的技术。在当下智能时代,智能终端的应用普及面越来越广,相应的越来越多的场景在设计个性化的人机交互界面时,以对话为主的交互形式。而一个完整的对话交互是由过程是由“输入—分析—输出”三个环节共同组成一个闭环。其中,“输入”需要语音识别(AutomaticSpeechRecognition,ASR)技术;“分析”需要自然语言处理(NaturalLanguageProcessing,NLP)技术;“输出”需要语音合成(TextToSpeech,TTS)技术。其中,“分析”环节由编码和解码组成,编码主要用于对输入内容的特征进行提取;解码则是通过声学模型和语言模型进行解析。语音识别技术是对话交互的开端,是保证对话交互高效准确进行的基础。

语音识别技术自20世纪50年代开始步入萌芽阶段,发展至今,主流算法模型已经经历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达98%以上。

行业投资环境

2.1行业政策环境

人工智能发展水平一定程度上体现了各国最高的科技水平。考虑到人工智能发展对于国家经济发展的重要性,中国政府已针对人工智能行业颁布了多项国家层面的发展政策,自年以来人工智能行业已经连续三年被写入《全国政府工作报告》内。具体支持政策包括项目发展基金、人才引进政策及其他国家扶持政策。目前,语音识别技术属于中国AI领域中最为成熟落地的技术之一,在国家政策的强力扶持下,预计未来能够加速在垂直行业的渗透和布局。

同时,在“十四五”的大背景和智能经济形态下,各省市响应中央号召,已有多个省市相继发布人工智能相关规划或专项政策,以人工智能为技术手段,发挥当地产业集群优势,促进产学研融合及协同发展。具体如下:

表1:语音识别相关政策汇总

信息来源:融中研究整理汇总

2.2行业发展现状

中国AI语音识别市场参与者众多,主要分为上游、中游、下游。

表2:语音识别产业链分析

信息来源:融中研究整理汇总

上游分析:底层技术提供强力支持——语音识别解码过程中包含了升学模型和语言模型的识别建模和模型训练两个部分。在运行过程中训练数据量和计算量需求极大,传统的CPU或者单一处理器几乎无法快速单独完成一个完整的模型训练过程,主要原因在于CPU内部仅含有少量的逻辑单元,且指令执行是逐一进行的串行计算,使用该架构进行语音识别运算的处理时间过长,无法满足海量数据计算的实时性需求。因此,能提供海量数据处理、存储以及高性能运算能力的云计算技术成为语音识别行业的应用热点。目前,主流语音识别公司的模拟训练和语音识别基本都在云端采用GPU(图形处理器)并行架构或异构计算方案进行。

中游分析:语音技术持续升级——语音是被的中游主要为将语音识别技术实现商业化落地的硬件及软件服务供应商。根据终端消费者类型,语音识别的中游厂商主要可以分为消费级市场和专业级市场,其中消费级市场中的主要语音识别产品包括消费级智能硬件、智能音箱及语音输入法等,专业级市场的语音识别产品则主要以行业解决方案和平台化技术输出两种形式呈现,其中更为垂直落地的解决方案形式在目前专业级商业化收入市场中占比更高。目前,智能语音开放平台在智能语音市场中收入占比较小的原因是,以阿里、百度及科大讯飞为首的各大厂商为加速AI语音技术对下游应用场景的渗透,采用多种优惠甚至免费形式向开发者提供语音识别服务,希望将语音识别技术应用在更多软件及场景中,与广大开发者携手建立一个完整的AI产业生态圈。

下游分析:行业应用多样化——语音识别作为AI交互的重要入口,在人工智能领域属于最重要和发展最为成熟的技术之一,目前已经以多种商业化形式广泛应用于下游市场。从应用领域来看,目前消费级市场主要应用于智能硬件、智能家居、智慧教育、车载系统等领域,专业级市场主要应用于医疗、公检法、教育、客服、语音审核等领域。广泛的应用领域也就意味着更多元化的使用场景,然而目前的语音技术对于使用场景具有较强的限制性。尽管快速更新迭代的神经网络结构已经将安静环境下的近场语音识别的错误率降低至3%以下,但现实环境中多数应用场景无法满足理想的环境条件,因此在进行语音识别时需要同时考虑到各种噪声、信道等因素。为使语音识别技术在更广泛的使用场景下保持良好的表现,AI语音厂商需要提供硬件与软件协同的一站式服务,并根据用户实际痛点进行针对性优化,从而有效提升在多元下游场景下语音识别的渗透率。

2.3行业竞争格局

中国AI语音识别主流厂商按照其属性可分为IT及互联网厂商、语音技术厂商两类。

IT及互联网厂商:IT及互联网厂商包括百度、阿里巴巴、腾讯、搜狗、小米等厂商。凭借在互联网时代积累的大量资本,IT及互联网厂商在众多科技领域成为了主要参与者。与依靠人工智能技术起家的AI垂直类企业不同,IT及互联网厂商侧重以流量导向和满足庞大用户群体验和创新需求为导向去做AI开发,更多以流量和用户体验为导向,同时,会比传统的语音技术厂商更加注重创新实践。

语音技术厂商:语音技术厂商也可以分为传统语音技术厂商和创业厂商、传统语音技术厂商包括科大讯飞、小i机器人、捷通华声等拥有自己的核心智能语音芯片以及语音相关软件系统的厂商,创业厂商包括云知声、思必驰、出门问问等专注于某些垂直领域(如汽车、家电等)来推广自己的语音技术和产品的厂商。

综合来说,在中国AI语音识别领域,阿里巴巴、科大讯飞、百度、腾讯均有着强劲的竞争力。

阿里巴巴:阿里智能语音交互服务是业内领先的云原生语音服务平台,对阿里集团内服务于超过99%语音场景,对外也提供各类云上语音产品。根据阿里巴巴企业年报来看,阿里巴巴在语音识别领域涉及情况如下:

(1)在语音识别全产业链方面,阿里云上语音技术在大量数据积累、算法积累、工程积累和阿里达摩研究院技术同步上云的成果加持下,极大提升了语音交互的准确率和性能。阿里智能语音交互技术已解锁并成熟布局于多个场景中,包括智能客服、智能质检、法庭庭审实时记录、实施演讲字幕、访谈录音转写、声纹登录、设备端语音交互等场景,在政务、金融、物流、教育、电商、泛互联网、医疗、餐饮等多个领域均有应用案例以及大量的客户积累。

(2)在市场方面,目前阿里智能语音分别在电话客服和法院语音识别的市场都占有领先的位置。阿里语音AI技术能在多个领域快速落地,占领市场并成为行业客户认知度前列的云上语音技术厂商,关键因素之一是与大量的独立软件开发商结成了阿里语音AI产业联盟。

(3)在企业经营和战略方面,阿里云在基建技术的布局规划方面,将继续加大投入对云操作系统、服务器、芯片、网络等核心技术的研发,为语音AI与云的结合带来更具想象力的引用场景和价值空间。

(4)在创新方面,阿里重视对技术的研发投入和对行业的贡献,其职能语音核心技术能力是下一代端到端语音识别技术SCAMA、SAN-M技术和DFSMN技术,这几种技术都是业界首次在非科研领域的应用并获得成功,使得整体语音交互技术的准确率在高并发的情况下获得独特优势。同时DFSMN也已经面向全行业开源,为行业整体技术提升做贡献。另外,阿里在业内率先推出的自学习平台也改变了语音AI生产关系,即使行业实践者没有很多语音领域的专业知识,也能够通过阿里云自学习产品灌入行业内的数据和知识就能够获得所在行业不错的语音交互效果。

(5)在客户服务方面,阿里智能语音最为主要的商业策略就是为其合作伙伴提供语音原子能力、多个领域开箱即用模型和自学习平台,赋予了消费端产品“能说、会说、懂你”式的智能人机交互体验,在将阿里云智能语音领先技术赋能于产业联盟企业的同时,构建了一个更为完整和繁荣的AI语音应用生态、普惠市场。

科大讯飞:科大讯飞是国内领先的智能语音技术主要提供商之一,在语音识别等智能语音技术领域拥有国际先进的成果,主要业务包含智能语音和语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成,为企业、政府和个人提供智能应用。科大讯飞技术优势在同行业中出众,拥有自主知识产权的只能语音技术,推出覆盖大型电信级应用到小型嵌入式应用以及满足不同应用环境的软硬件产品。科大讯飞在中文语音技术市场和语音合成产品市场都占有较大份额,应用与电信、金融、电力、社保等主流行业。科大讯飞结合自己核心的只能语音技术和人工智能的研究,已经实现AI产品化的布局。在ToB端,科大讯飞面向教育、政法、医疗、汽车和客服等多个行业提供相应的解决方案。在ToC端,科大讯飞提供面向消费者的家庭、汽车、翻译等消费级个人,包括硬件产品如讯飞学习机、讯飞翻译机、智能办公本等,以及软件产品如讯飞输入法、AI电视助手等。

百度:百度在AI开放平台上提供语音识别的技术,共享AI领域的应用场景和解决方案。提供产品包括短语音识别、实时语音识别、远场语音识别、音频文件转写、语音自训练平台等,应用于手机应用如语音输入、机器人对话、语音内容分析和实时语音转写等场景。百度的语音识别技术优势在于领先的语音识别技术,提供自助训练专属模型,可简单快速地接入API及多种SDK接口,提供稳定性保障,且收取费用较低。

腾讯:腾讯云语音识别目前主要应用于

转载请注明:http://www.0431gb208.com/sjslczl/2311.html