毕业论文
您现在的位置: 语言识别 >> 语言识别发展 >> 正文 >> 正文

王小川详解搜狗最新AI硬件搜狗翻译宝

来源:语言识别 时间:2022/9/5
治白癜风长春哪家医院好 http://m.39.net/pf/a_4618892.html

年底起,翻译机成为人工智能硬件的热门品类。搜狗是最早发布AI翻译机的公司之一,以语音和翻译为核心技术的AI硬件也已然成为搜狗的重点投入领域。

9月19日,搜狗新品AI翻译机——搜狗翻译宝Pro正式上线。9月25日,搜狗召开了一场媒体沟通会,搜狗CEO王小川也来到现场与媒体畅谈搜狗翻译宝Pro。

搜狗翻译宝Pro利器:离线语音翻译

搜狗翻译宝Pro有多种颜色,采用铝合金机身,手感不错。搜狗翻译宝Pro的主页面很简单,主要有三个功能模块:语音翻译、拍照翻译、录音备忘。点击语音翻译后可以选择需要翻译的语言,雷锋网编辑选择了中文翻译为英文。机身侧面有一红一蓝两个按键,按住蓝键可以开始录音,红键可以播放翻译结果。

搜狗翻译宝Pro在线翻译支持42种语言实时互译,不仅支持中文和其它41种语言互译,还可以实现42种语言互相双向翻译;离线翻译支持中英日韩4种语言互译。

不少人刚接触到搜狗翻译宝Pro这款产品时,会有惊艳的感觉,主要来源于语音技术与翻译技术结合产生的火花。如果你想把你说的中文翻译成英文,那么只需要在搜狗翻译宝Pro上设定中文转英文,然后录下你说的中文,搜狗翻译宝Pro会自动翻译成英文,并且将其读出来。在此前,使用翻译软件都需要手动输入文字,得到翻译结果后,使用者还会面临无法读出翻译结果的问题。语音识别技术和语音合成技术使得翻译宝就像是私人随身翻译官,你只需要自然地说话,就能完成跨语言的交流。

目前,手机上的在线翻译软件也已经实现了自然的对话翻译。但是搜狗翻译宝Pro这款产品却有其独特的存在价值:离线翻译。离线AI翻译和离线语音技术是手机硬件难以攻坚的两大堡垒。

翻译机的火爆其实源于AI翻译技术的进步。年9月,谷歌推出了神经网络翻译(NeuralNetworkTranslation),颠覆原来的的统计翻译方法,大幅度提升机器翻译的质量。年11月,搜狗上线了神经网络翻译技术,并且不断进行技术迭代,年7月升级为Transformer-NMT机器翻译。年5月份,搜狗参加了国际顶级机器翻译评测WMT,获得了中英机器翻译全球第一。

神经网络翻译对算力要求极高,由于手机的硬件达不到要求,目前主要是借助云端的能力,而一旦手机没有网络,AI翻译就无法使用。搜狗翻译宝Pro是专为AI翻译定制的硬件,其全部的硬件能力都用来支持离线的AI翻译。搜狗第一代旅行翻译宝就已经用到了离线的Transformer-NMT机器翻译。

据雷锋网了解,微软、谷歌等公司也都在尝试离线神经机器翻译技术,将深度学习模型压缩到手机可以管理的大小。但是在王小川看来,手机能支持的离线神经机器翻译技术与翻译机还是有相当大的差距,并且手机还没办法做离线的语音识别和语音合成。

离线AI翻译之外,离线语音识别和语音合成是另一个手机硬件还未迈过的槛。搜狗目前的语音识别准确率已经达到97%,在线和离线语音识别模型也几乎一致。语音识别是语音翻译的第一步,其重要性可想而知,语音识别准确才能保证后续翻译正确,如果识别错了一个字,很可能导致整句话的翻译全部错误。现在手机上还无法实现如此高准确度的语音识别模块。

雷锋网编辑在现场体验了搜狗翻译宝Pro的在线中英翻译和离线中英翻译,从语音识别、翻译速度、准确性方面都难以感受到两者之间的差别。

屏幕很重要

搜狗翻译宝Pro采用3.1寸高清触摸屏。在一些人看来,翻译机没有做屏幕的必要,设计触摸屏后跟手机还有什么区别?然而,从体验来看,大屏幕确实是必要的。

前面解释了语音识别对于整个语音翻译起着决定性的作用,用户确保翻译准确的一个重要步骤就是从屏幕上确认语音识别结果的准确性,如果语音识别结果准确,那么翻译就不至于错得太多。

此外,屏幕对拍照翻译至关重要。目前仅有为数不多的几家翻译机有拍照翻译的功能。在日常的语言翻译需求中,除了对话之外,图像里的内容也占据了很大比率,例如:路牌、菜单、印刷品、网络内容等。

搜狗翻译宝Pro的拍照翻译采用了搜狗自研的OCR图像识别技术,能够识别出图像内包含的文字内容,然后经过断字断句之后进行翻译。OCR技术能应对光线、曲面、角度、透视、畸变等拍照状态,可以覆盖多种场景。还可以做到理解图像的排版,将翻译后的内容以原图的排版和格式呈现,方便查看。

从出国游扩展到更多场景

年3月,搜狗发布AI翻译机——旅行翻译宝,主打出国游语音翻译。近年来,中国出境旅游人数逐年上涨,年出境游人数超过两千万,这是一个庞大的市场。而二代AI翻译机的名字里去掉了“旅行”两个字,将目光锁定了更多的场景,例如商务、英语教学、体育赛事等。王小川谈到,一开始叫“旅行翻译宝”是为了在进入市场时有一个明确的定位和目标人群,但是我们发现除了旅游之外,这款产品还有更加广阔的需求。

搜狗翻译宝Pro主要的功能有语音翻译、拍照翻译、离线翻译、口语练习、录音备忘等。口语练习就是搜狗翻译宝Pro拓展的又一垂直领域。搜狗发现,翻译机这款产品面对的是有语言翻译需求的人群,这一人群同时也会有语言学习的需求。口语练习可以通过语音识别来清晰地记录用户的发音,然后比对正确的发音,指出用户的发音问题。

9月17日,搜狗和中网举办合作发布会,宣布搜狗翻译宝Pro为中国网球公开赛官方唯一指定翻译机。网球赛事成为搜狗翻译宝Pro的一大新的领域。

可以看出,搜狗翻译宝Pro的功能和场景都在不断增加。这也带来了一个疑问,搜狗翻译宝Pro会越来越像手机吗?有什么事情是搜狗翻译宝不会做的呢?王小川谈到,搜狗翻译宝会一直专注于语音和翻译,不会做语音和翻译之外的事情,而是会选择手机上无法实现的功能来做。

近两年,搜狗已经将AI作为其长远的战略方向,围绕“自然交互”和“知识计算”两大方向做以语言为核心的人工智能,核心的产品主要围绕输入法、搜索、同传和翻译。王小川透露,在今年年末,还会有三款令人意想不到的AI硬件推出,其中一款将具备同传功能。

王小川说,这三款AI硬件将给人耳目一新的感觉。对此,雷峰网将持续

转载请注明:http://www.0431gb208.com/sjszyzl/1477.html