毕业论文
您现在的位置: 语言识别 >> 语言识别资源 >> 正文 >> 正文

GooglePixelBuds实时翻译是

来源:语言识别 时间:2023/10/10
北京白癜风专科哪里最好 https://wapyyk.39.net/hospital/89ac7_knowledges.html
人工智能所引起的话题从未间断,在写作机器人、写诗机器人、翻译机器人等陆续面世之后,几度引发人们的恐慌:这些机器人会取代作家、翻译人员、同声翻译等的职业吗?在我们尚未得出结论之际,Google公司也在这股热潮中推出了它涉足智能耳机领域的第一个产品——GooglePixelBuds耳机。这款无线耳机除了具有一般耳机的功能外,它还能利用Pixel手机上的谷歌翻译软件,协助用户实现实时翻译。实时翻译的实现需要一系列技术的支持,那么PixelBuds从语音输入、转换语言(翻译过程),直到将翻译好的语音反馈给用户,这中间到底运用了什么技术呢?GooglePixelBuds(图片来自网络)实时翻译系统的运作:一、输入调节PixelBuds接收到的语音不一定是清晰的,背景当中会出现大量的噪音,因此去除噪音并把用户想进行翻译的语音截取出来是必须的,而语音活性检测(VAD)的运用就能确保PixelBuds只接收主人所说的话,而不是听从每个人的命令。二、语言识别(LID)语言识别利用了机器学习的系统,能够在几秒内辨别出所说的是哪种语言,它也间接地引导了PixelBuds之后对所听到的语音的意义,因为意义会随着语言的不同而改变。然而,仅仅依赖发音来识别语言是不准确的,因为有的语言是拥有几乎一模一样的发音的,因此谷歌配置了全新的声学模型来帮助识别语言。三、自动语音识别(ASR)这个系统会使用该声学模型先将输入的语音一个个转换成音素,再利用具体的语言模型把音素的数据转换成文字。尔后,通过口语语法、连接上下文、发音词典等资料库的分析,ASR系统会自主补上句子中的空缺并自动修改有误的音素,从而推断出一段基本正确的文字。四、自然语言处理(NLP)NLP则会利用翻译机器,把这段文字翻译成另一种语言(即目标语言)。这样的翻译不仅仅是把每一个词翻译成对应的词那么简单,而是需要系统理解语音的语境、情景、语气、语言的习惯等等,才能了解背后的含义,继而将这个意思用另一种语言表达出来。五、语音合成(TTS)这个系统会从文字片段中生成符合自然语言的语音,即是使用复杂的统计声学模型生成听起来自然、不违和的声音片段。(图片来自网络)举个中英翻译的例子来说明它们之间的配合和操作。当PixelBuds收到翻译的指令后,就会率先记录语音,用VAD截取需要翻译的语音片段,随后交由手机中的翻译软件进行压缩,再通过无线网络或数据网络上传到谷歌的语音服务器。云端服务器则会将语音解压并使用LID来判断出输入语言是中文还是英文,若判断为英文,那么英文的ASR系统就会将它转化为文字。接着NLP系统会把英文文字翻译成中文文字,然后发给中文TTS系统合成为中文语音。最后,这段生成的语音就会返送到手机和耳机中。整个过程听起来很复杂,但其实真实的运作仅仅耗费几秒钟的时长。(图片来自网络)GooglePixelBuds智能耳机最大的卖点就是它能够借助谷歌的人工智能技术,实现实时翻译,从而达到同声传译的功能。谷歌在这方面的成就是有目共睹的,以YouTube上的实时英文字幕为例,谷歌的最新技术已经达到近乎完整的地步,基本上可以把视频中的语音和对话准确地还原。现在,谷歌将这项技术运用到了耳机上,为谷歌公司进军智能耳机行列踏出了第一步。当然在技术上仍然有些许的不足,在准确性和速度方面也尚未能够超越自然语言使用者,可是就这个产品对我们的影响而言,它蕴含着深远的影响。我们可以更自然地与不同国家、不同语言的人进行对话,不必担心有理解上的错误。GooglePixelBuds无疑是谷歌迈向人工智能助理领域的新一步。参考:《揭秘谷歌翻译耳机究竟如何工作》

转载请注明:http://www.0431gb208.com/sjslczl/5963.html