毕业论文
您现在的位置: 语言识别 >> 语言识别资源 >> 正文 >> 正文

搜狗王砚峰智能语音的爆发要靠产业支撑3

来源:语言识别 时间:2022/10/18

搜狗语音交互中心负责人王砚峰

在和年的乌镇互联网大会上,王小川分别展示了搜狗的机器同传和唇语识别两项技术,可谓艳惊四座。尤其是当演讲者用英文演讲,大屏幕上实时就进行了准确识别,而且还给出了中文翻译,让很多人惊呼“同传以后难道都要失业了?!”

不止如此,年7月,搜狗还针对文字工作者推出了搜狗听写,解决了让很多记者头疼的录音整理工作——终于可以跟又贵又不准确的速记们说拜拜了。

“这是搜狗AI小试牛刀的一些产品,希望能够在相应场景下创造价值。”搜狗语音交互中心负责人王砚峰对36氪强调,作为一家标榜技术领先的公司,搜狗在AI(人工智能)上是走两条路:一方面,将AI能力跟产品更好的结合起来,去做出更好的产品;另一方面,去做更多的前沿科技探索,也是自身能力跟技术的体现。

年,搜狗开始着手研究语音技术,完成深度学习的研发后,语音技术陆续接入包括输入法、地图在内的全线产品。随着端到端的神级网络机器翻译在年前后兴起,搜狗抓住了机会。年8月,搜狗推出了语音交互引擎“知音”。基于知音引擎,搜狗又针对可穿戴设备、车载车间、电视、家居设备等不同场景搭建了技术产品解决方案知音OS交互平台,并在小米、魅族、创维、海尔等产品中落地应用。

年7月,搜狗推出“智能副驾”产品,用户在使用搜狗地图时,可以全程语音交互;8月,搜狗又推出速记工具“搜狗听写”。

“搜狗是为语言理解而生的,专注在自然语言的计算与处理。”去年上市前,王小川在内部信中提到搜狗未来的计划,将基于对自然语言的交互和计算,将搜索升级到问答系统,将输入法升级到对话系统。继续以语言为核心,在“自然交互+知识计算”的技术路线图上探索,改进人机交互界面,研发未来交互问答式的下一代搜索引擎新形态。

“搜狗的核心是人工智能,而搜狗人工智能的核心是语言”,36氪跟搜狗语言交互中心负责人王砚峰聊了聊搜狗的智能语音布局和发展,以及他如何看待智能语音未来发展等话题。

大数据+深度学习提升语音识别和机器翻译的准确率

36氪:在年7月“知音”引擎发布后,这一年多搜狗又进行了怎样的迭代更新?

王砚峰:“知音”从最开始的一个核心技术引擎,正变成一个成熟的技术平台。当时发布的时候,更多是把我们语音识别和语音交互的能力放进去,后面我们把这个单点的技术更多地走向平台化。在走向平台化的过程中,首先你的技术要变得更成熟,同时既然要把它变成平台,就要去跟多家的合作伙伴去对接,在这种对接的过程当中,进一步地打磨自身的技术,让技术在各个场景当中都能更加完善。比如以前我们这个技术是放在手机上的,那如果是放在音箱上、电视上、车机上,场景不一样,那对应的在这个领域上,你也要去做很多优化。

从整体上来讲,它是一个由技术走向平台的过程,从一个单点的技术,走向多场景多领域,面向多产品的技术平台,最终演变成不同产品和场景的技术解决方案。

36氪:在苹果发布Siri之后,搜狗在年底曾发布搜狗语音助手,后来为什么没多久就停掉了?

王砚峰:最开始推出那段时间进步还是蛮快的,但后面我们确实遇到了用户留存率的问题,就是说用户安装了这个产品以后,用户能不能坚持使用这个产品,除了偶尔的闲聊以外,能不能真的帮用户去干一些其它实际的事。当然这其实也是所有语音助手都遇到的一个产品墙。另外语音助手这个产品,从核心技术本身的进步上来讲,我觉得这几年在进步本身都不大,包括Siri。

搜狗当时的选择就是不再大力推广这个产品,而是把这种语音助手对话能力放到一些更垂直的领域和场景当中,然后把场景跟数据结合起来,这样才会有更好的实际的用户体验。

36氪:年左右,机器翻译从传统的统计机器翻译到神经机器翻译过度,这是不是给了搜狗以很大的机会?

王砚峰:以前机器翻译的方式跟输入法整句输入很类似,采用的是经典隐马尔可夫模型。

但是后来有了端到端的深度学习框架,就是可以把一串源序列通过深度神经网络转化到一串目标序列。其实这种框架是适合做很多事的,而机器翻译恰好是很完美的在被这个框架包住了,所以这两年这种端到端的深度学习框架带给机器翻译的帮助是巨大的。

36氪:在过去两年的互联网大会上,搜狗展示的机器翻译、唇语识别都很惊艳,是不是说未来真的可以替代这些同声传译了?

王砚峰:现在机器跟人比起来,机器的优势是有足够的记忆能力,领域知识可能也会更多一些,所以相比初级的同传或者不太了解这个行业的同传,机器肯定能够做得更好。但是如果机器跟一个对于这个行业特别了解的优秀同传来讲,肯定跟人还是有差距的。

36氪:据了解,在语音识别上搜狗已经将准确率做到97%,前不久你们发布的唇语识别,其中一个考虑也是希望进一步提高语音识别的准确率,如何攻克“语音识别的最后一公里”?

王砚峰:解决语音识别最后一公里的方式有很多,整体上来讲大的思路就是两个方向,第一就是让场景做的更垂直更收敛,把它自己的难度降下去;另外就是去加更多的有效特征,其实机器学习在总体上来讲,就是一个不停增加有效特征来让效果变得更好的过程。

唇形我们就是作为发音过程中的一个特征加进去的,现在其实我们还没做到足够好,后面一旦能够把唇型的特征和发音的特征完美结合起来的话,原则上是一定能够提升语音识别的准确率的。

36氪:虽然语音识别的准确率已经接近%,但我了解到机器翻译的准确率只在90%左右,这个该如何进一步提高?

王砚峰:不管是语音识别也好,还是机器翻译也好,其实都是两方面,一方面是大数据,另一方面是深度学习。

我们后面会不断去升级这种深度学习的技术能力,比如说去做更复杂的模型,同时解决数据的问题。以前我们数据是一个通用模型,未来放在各个场景下,我们可能去做各个场景下更专用的模型,因此肯定是两条路并行来走。

年,Google的Transformer框架出来以后,我们这边马上就进行了快速跟进,17年中就上线到翻译系统中,那时准确率上是有一个大幅提升的,这就是技术进步的巨大作用。同时,我们现在做的翻译机,更多面向旅游场景,一方面我们抓取更多相关语料,另一方面产品上线后标注更多产品中产生的语料来补充迭代,必然也能够让这个场景下的翻译准确率更高。

巨头竞相卡位智能语音核心在于谁能做出更好的产品

36氪:去年七八月份搜狗先后发布了智能副驾和搜狗听写,在进一步扩大应用场景层面,搜狗的逻辑是怎样的?

王砚峰:具体到应用场景,你要把它分成两个层面去看,一是场景下够不够刚需,另一个层面是技术能不能做得到,然后这两者如果能够匹配起来的话,就是一个好的场景。比如像智能副驾,我觉得之所以是一个好的场景,是因为用户在开车的时候,需要语音来帮助解决一些问题,同时司机的意图会相对比较收敛。

36氪:我看到搜狗在技术输出方面也已经合作了一些手机和电视厂商,但为什么特别强调“通过技术来收取技术服务费不是搜狗的商业逻辑”?

王砚峰:不是我们不希望这样,而是现阶段在国内很难做出规模化效应。通过提供技术的方式收取技术服务费,重要的一个前提是存在技术的独有性,你能做到别人做不到的事;如果没有独有性,那只好不停拼价格,那是没有未来的。

而语音技术尤其是一个已经被巨头们都开放出来免费的技术,那你想通过开放的技术去建立一个商业模式,这个本身就是一个很难的事。

我们现在也有一些技术输出,但更多的是要打磨自身的技术能力,去收集更多行业的数据,同时看看能不能给我们去做自己的产品或者服务时带来更多的帮助。

36氪:在智能语音领域,不管是国外还是国内,现在都有诸多玩家在摩拳擦掌,大家现在技术比拼的焦点在哪些方面?

王砚峰:语音发展到最后,你只要掌握了好的深度学习能力,以及你有数据的话,总能做出来一个好的技术能力,所以单纯从技术来讲,不会有一个大的差异,技术只是一个基石,没有这个基石很多事情是做不了,但是你的差异点是没法来自于技术本身的,更多是来自于产品,来自于你的技术能力跟产品以及服务的结合。而大家现在比拼的更多本身已经不是差异化,而是一个先发优势,或者说是卡位。

36氪:那搜狗相较于其他巨头而言,现在有哪些优势和劣势?

王砚峰:我觉得第一我们在核心技术上是足够领先的,在语音技术的起步也足够早,累积也够深厚;第二我们有搜索引擎,在内容知识服务的接入上,会是一个先天的优势。另外我们还有一个4亿日活的输入法,输入法在背后会产生大量的用户自然语言数据,而这种自然语言数据是可以能够帮到我们更好的进行自然语言理解和对话交互的。

目前压力比较大的地方,就是怎么能够把手中好的核心技术尽快转化成价值,不管是用户价值也好,还是商业价值也好。当然,在技术转化价值方面,巨头们或者整个行业都存在这样的问题。

36氪:一些创业公司是否能否抓到相关的机会?

王砚峰:很多创业公司在做的事,巨头们都在做,尤其是语音交互平台。作为创业公司来讲,前期能够拿一些定制开发费或者技术服务费,同时也有资本的支持继续烧一段时间,都是没有问题的。但是从长期上来看,只要在语音交互这件事情上和巨头竞争的话,总需要一个答案,就是你用什么样的差异化方式去生存以及赢。如果找不到适合自己走的差异化的路,那么抓住未来的机会就没有那么容易。

36氪:你怎么看智能语音未来的发展?

王砚峰:智能语音在日常生活中全面爆发一定是未来会发生的事情,只不过这个时间点什么时候到来还不太确定,可能甚至还需要三五年甚至更长的时间。

智能语音是一种更自然的交互方式,是未来必然会发生的趋势,但它不是一个单独技术成长的过程,而是会跟产业生态一起成长的过程。在这个过程当中,一定有产生伟大公司或产品的机会,但是这种机会究竟以什么样的产品形式呈现出来,目前还没有那么的清晰。

承载智能语音爆发的智能硬件是一种消费升级,但这种消费升级背后是整个产业能力能否足够支撑这件事,无论技术能力也好,产业生态也好,它其实是一个更大的盘子,而不单单是语音本身的问题。比如开灯关灯这些是语音早就可以做得很好的了,但为什么现在还没有做到很普及,背后是整个智能家居生态链的问题。

转载请注明:http://www.0431gb208.com/sjslczl/2009.html