选自MITNews
原文作者
RobMatheson
编译
LucilleEstrella
中学英语考试有种题型叫“听音识图”。被它支配的恐惧,小编现在想起来还能起一身鸡皮疙瘩…
不是英语听不懂,而是要在各种沙雕插图里分出电饭锅和高压锅,臣妾实在做不到啊…
好在,最近MIT的计算机科学家们出手了,他们开发了一种“听音识图”的新系统。
什么效果呢?只要一图在手,再配上语音描述,该模型就能实时标注出所描述物体的相关区域。
比如,你给系统看了这张金发碧眼小姐姐的照片…
同时,随口瞎嘀咕了些断断续续的词组和句子:
“小女孩的照片”
“站在灯塔前…”
“穿着蓝色碎花裙子”
“还有个红色的屋顶”
……
看出来了吗,你说啥,这个系统就圈啥,不仅实时性很强,甚至连第二句中“在…前面”的位置关系都体现出来了,虽然我也不知道这是不是巧合。
语音、图像一“键”搞定
但乍看起来,这个系统好像也没啥特别厉害的。语音识别、图像识别不都是AI的常规操作嘛…
没错,这俩都是常规,可加在一起就超常规了。
我们之前认识的AI都是某个单独领域的专家,会听的不会看,能认识图片的,听力则是个障碍。
所以,以往遇到这个问题时,语音和图片之间是无法直接关联的,而需要通过手动的转录或者注释。
比如Siri,它需要先将数千个小时的语音记录转录下来,通过这些数据,学会将语音信号与特定单词相匹配。一旦人们发了什么新词,这种方法就不好用了,系统也得从头练。
MIT这个模型就不一样了,它既能从语音片段中识别单词,又能从原始图像中读取物体,并顺手给两人配个对儿。
虽然模型的现有水平还有限,只能识别几百种单词和物体类型。但研究人员认为,未来的某天,他们的“语音—目标双向识别”技术能够解放人类双手,并在语音和图像识别领域开拓崭新视野。
人类巴别塔之光?
当然,作为一项为人类服务的系统,大家最关心的莫过于它有啥卵用?
想不到吧,这个模型最具潜力的应用方向,居然是翻译…那种不用借助双语注释器学习不同语言的翻译。
全球大约有多种语言,但其中拥有足够用于语音识别转录数据的语言,只有种左右,基本就是你在Google翻译上看到的那些。
然而,如果两个不在该系统内的非洲部落语要强行交流,他们该怎么办呢?这时,模型的效果就体现出来了。
面对同一幅画,A部落的人说了句“Iwanttherose”,模型画了个圈圈锁定了中间那朵花;到了B部落,听到“我要那朵玫瑰”,模型又指出了同一朵花…
此时,AB两种语言的双语互译就达成了,rose=玫瑰,大家开开心心做交易~
如果你看过《银河漫游指南》,作者在其中虚构出来的一种有生命的耳机“巴别鱼”,就与这个模型的效果十分相似。只要把一条巴别鱼塞入耳朵,就能理解瞬间通晓任何一种语言。
声音—视觉关联
DavidHarwath是这篇论文的作者。他与团队早期建立的一种模型是这项研究的基础,它能将语音和主题相关的图像组相联系。
在之前的研究中,他们在分类数据库只提取场景图像,并将其放在众包平台MechanicTurk上。
之后,让人们用对孩子说话的方式来描述这些图片,每张图配10秒的语音。他们最终收集了20多万组图像与对应的音频描述,场景分布种类有几百种,从海滩,商场,到城市街道、卧室等等。
然后,他们设计了一种由两个独立的卷积神经网络构成的模型。一个处理图像,另一个处理音谱(音频信号随时间变化的可视化表示)。模型的最顶层用于计算两个网络的输出,并将语音模式与图像数据相匹配。
例如,研究人员先为模型提供音频描述A和正确匹配的图像A;之后,是随机的音频描述B和错误匹配的图像A……
在将数千个错误的音频描述与图像A进行对比之后,模型学到了对应图像A的语音信号,并将其与音频中的单词相匹配。
团队曾经在年发过一篇论文,说该模型已经学会了“水”这个词,但匹配的结果仍然有误差。
建立匹配图
到了这一次的新论文,经过优化的模型,已经能将单词与特定像素块相联系。而且新模型还增加了40万组图像与音频。
例行测试。
研究人员从中随机选了0组。依旧让模型同时接收正确与错误的配对组。
但这一次,两种神经网络开始各司其职。分析图像的神经网络将图像分割为由像素块组成的单元网格,分析音频的神经网络将频谱图划分为片段,比如每个片段持续一秒,记录一到两个单词。
这样的分工合作让配对结果的精确性有所提升。有了正确配对的图像和音频,模型会将网格的第一个单元与音频的第一片段相匹配,然后将同一单元格与音频第二片段匹配,以此类推,直到所有单元格都与音频片段都进行过匹配。
对于每个单元格和音频片段来说,每一次配对会提供相似性分数,相似性高低取决于语音信号与目标的匹配程度。
这一操作的挑战在于,训练过程中,模型无法获取音频与图像之间任何真实对应的信息。
Harwath说,“这篇论文最大的贡献就在于,它证明了这些跨模态(听觉—视觉)的对应关系是可以实现的。只需教会神经网络分辨哪些图像与音频可以正确匹配,哪些不行,它即可自行推断。”
作者将音频波形图与图像像素之间的自主学习关联称为“匹配图”。在经过上千对图像与音频组的训练后,网络将这种对应关系的范围缩小了,“匹配图”中的特定单词能够与特定目标相匹配。
Harwath把模型的运行过程与著名学说“大爆炸宇宙论”进行了类比。在大爆炸的学说中,物质完全分散,再聚合成行星和恒星。而模型的训练也是如此,最初各种预测满天飞,但随着训练进行,一切渐渐有了眉目。训练结果表明,口语和视觉目标之间是存在语义基础的。
MIT的“听音识图”获得了不少好评。
再开下脑洞,未来把这个模型用在残障人士和儿童的语音识别中,也有着同样大潜力。
转载请注明:http://www.0431gb208.com/sjszlfa/1138.html