今天愚人节,我却在写严肃的东西。
上周我在虎嗅撰文,文中有两处提到谷歌翻译和百度翻译的对比:一处是说百度领先谷歌一年上线基于NMT神经网络的翻译系统,一处是说百度翻译的功能体验不如谷歌方便。巧的是几天之后,3月29日,谷歌翻译APP就重返中国大陆,引起一片欢腾。致意吴恩达先生的离职
此次谷歌优化了中国大陆地区的用(bú)户(yóng)体(fan)验(qiáng),有网友一边感叹,一边顺带怀念了谷歌全家。在段子手国度,此事很快演变成狂欢。人们拿出各种网络用语虐各家翻译软件,对比结果。
有人说,与谷歌翻译比,中国的翻译软件都是垃圾。也有反怼谷歌的。连谷大白话老师也上阵笑侃,拿出“不明觉厉”、“活久见”、“朝阳群众”、“啪啪啪”调戏谷歌,结果显示搜狗翻译更走心:
图片来自谷大白话文章
我觉得,这种事,各方都能找出几个例子来证明对方不行自己行。玩玩可以,当真了就不严肃。而且如果一味强调本地段子翻译准,就好比问对方茴香豆的“茴”字有几种说法,没什么实际价值。下面从技术本质角度来谈一谈。
翻译有多重要
巴别塔的典故传了不知道多少遍,可见翻译应该是个普世的工作。相比段子,我更想把技术人的想法“翻译”出来,谈谈国内各翻译巨头到底在和谷歌比拼什么。
夸张点说,“翻译”是人类信息文明的一切。
翻译背后是语言,语言的本质是符号,翻译就是符号的“编码”和“解码”。从一种语言翻译到另一种语言,就是对一种编码进行解码,再重新编码为另一套体系。
人类文明萌芽于符号(语言),赫拉利老师在《人类简史》中就强调,我们的智人祖先正是因为有了完备的语言,才能组织起来,击败身体强壮的尼安德特人。
现代文明无不基于符号的流通、利用。法国哲学家、符号学家鲍德里亚善于“翻译”当代生活。比如《消费社会》一书就把消费行为当作一种语言行为——你消费任何商品都是在表达某种意思。以往经济学家强调商品的使用价值和交换价值,鲍德里亚看到的是:
商品的物质“使用价值”不再重要,符号价值才重要。商品就是一种语言符号,消费成了一种言说。爱漂亮衣服,爱打折标签,你是凡客。吃西少肉夹馍、骑摩拜单车,你是创业狗。
今天的人类生活更是进入了“过度”符号化的时代。信息技术的发展可以描述为数据符号“侵袭”自然生活。想想,“宅男”、“二次元”的另一面就是“真实”生活退后,人们都生活在经过互联网编码后的世界里。
在这种时代,依赖符号运作的机器反而如鱼得水。因为它们的一切运行以符号(代码、函数、数据、标签)为基础。追溯计算机的发明,无非是人类把自己的意图翻译成机器可以理解的语言,促成机器的行动。一切信息都是“语言”,一切语言传递都是编码——解码。所以,“翻译”成了人工智能的关键。
观察当下AI大企业,技术线路都有清晰的两块,一块是图像识别、语音识别方向,一块是自然语言处理方向。从阿里的小黄图牛皮藓鉴别、讯飞的语音识别,甚至到百度的无人车,更多利用前者。从百度的搜索、翻译、度秘到阿里的机器客服、搜狗的输入法,更多基于后者。
二者是并列的关系吗?新任百度AI技术平台体系(AIG)负责人王海峰说过一段话:
相对于看、听和行动的能力,语言是人类区别于其他生物最重要的特征之一。视觉、听觉和行为不仅是人特有的,动物也会有,甚至比人强,但是语言是人特有的。AlphaGo对于普通人来讲是非常震撼的一件事情,我们也认为它是一个挺大的成绩。但是我们也不能忽略,它的规则是明确的,空间是封闭的,为围棋训练出来的程序下象棋就不好用。基本来讲是一个可解的问题,但是语言的很多问题是更难解的。
几天前坊间有文章谈及百度结构大调整,用了“王海峰的崛起”这样的小标题。我以为除了人事戏码,更可以从自然语言处理技术的重要性来理解。
机器翻译的进化
翻译,是“自然语言处理”的最重要分支,也是比较难的一支。人工智能在早期就是符号智能,人把各种规则变成符号算式输入机器。
最早的机器翻译方法就是基于词和语法规则。注意,人类并不了解大脑是如何工作的,但是依然工作的很好。反过来,人类自己语言熟练,不代表人能理解自己语言神经是怎么运作的。这就导致依赖人工规则的翻译软件笑话百出。即便现在,谷歌、百度也无法避免下面这样的翻译错误:
谷歌翻译
百度翻译
后来出现了“统计机器翻译方法”(SMT),也就是通过对大量的平行语料进行统计分析,找出常见的词汇组合规则,尽量避免奇怪的短语组合。
SMT翻译短语效果好,但是翻译句子就一般,直到近几年基于神经网络的翻译模型(NMT)崛起。与AlphaGo的神经网络原理类似,NMT模拟人脑神经的层级结构,具有多层芯片网络,从基础层开始,每一层都对从上一层接收来的信息进行抽象,自动识别出语言的规则、模式。人不了解那些规则也没关系,反正交给机器了,只要结果正确即可。这就是端到端的翻译。
但是无论SMT还是NMT,前提是数据量要大,否则这样的系统也是无用的。简单的说,规则都是用函数表示的。假定给你一个未知函数f(x),我告诉你当x=5,f(x)=,你能推导出函数式f(x)到底是什么吗?显然不能,可是如果给你个x的具体值,及其对应的f(x)的值,你就可以通过数学学科里的逼近计算或者拟合函数推导出一个近似的函数f(x)。如果让机器去做这个推导,那就叫做“机器学习”。吴恩达的著名项目机器识别猫,就是输入了数百万猫的照片(x),告诉机器输出结果是猫这个语词,机器自己找到了图像形状到猫之间的推导规则。
在翻译界的常识是:机器翻译是突然爆发的,原因在于互联网带来的大数据。前谷歌工程师吴军在《智能时代》里说过,年,谷歌翻译在美国翻译界大赛上异军突起,秒杀老牌翻译公司,靠的就是更多的数据。因为谷歌有互联网,有网上人类提供的海量翻译例句。
十年后机器翻译第二次爆发。百度和谷歌一前一后上线NMT神经网络翻译系统。相比SMT聚焦于局部信息(短语),NMT更擅长利用全局信息——在对整个句子的信息解码、编码后,才生成结果。所以无论是语音识别还是翻译,你会发现句子长一点,机器识别和翻译的效果就会更好一点。
比如,语序问题是“翻译”头疼的问题,中文会把所有的定语都放在中心词前面,英文则会倒装,以往机器常混淆这个顺序。NMT通过基于深度学习的神经网络,向人类较好地学习到语序模式,长句翻译比以往流畅多了。
在谷歌和腾讯工作过的吴军,认为在搜索、翻译领域,排在前面的就是谷歌和百度,别人很难追上这俩。因为他俩都是搜索引擎起家,先发优势明显。谁积累的数据多、算法训练成熟,谁就会赢者通吃。搜狗搜索技术不弱,且有
转载请注明:http://www.0431gb208.com/sjsbszl/1211.html