毕业论文
您现在的位置: 语言识别 >> 语言识别优势 >> 正文 >> 正文

前沿看图聊天的骚操作,MIT开发精准到单

来源:语言识别 时间:2023/3/14
白癜风医生 http://m.39.net/pf/a_6210229.html

选自news.mit

作者:RobMatheson

机器之心编辑部

参与:张倩、刘晓坤、王淑婷

MIT计算机科学家开发了一个系统,可以根据有关图像的语音描述学习识别、定位、检索其中的目标。给定一幅图像和一份语音描述,模型就能实时找出图像中与特定词汇描述相符的相关区域,这样配置了该功能的语音助手也能跟你一起分享看照片的心情了。该方法有望应用于无监督双语翻译,相关论文发表在ECCV上。

与当前语音识别技术不同,该模型不需要人工转录和注释其所训练的例子,而是直接从原图像的录音片段和目标中学习词汇,然后建立它们之间的联系。

图1:模型的输入:图像和语音波形的配对。

该模型现在只能识别几百个单词和物体类型,但研究人员希望这一「语音-目标」组合识别技术将来能够为人类节省很多时间,同时为语音和图像识别技术打开新的大门。

语音识别系统(如Siri)需要转录几千个小时的录音。该系统使用这些数据学会匹配语音信号与特定词汇。如果有新词加入词典,这种方法就不好用了,而且系统必须重新训练。

「我们想用一种更自然的方式做语音识别,利用人类便于使用的额外信号和信息,但机器学习算法通常无法利用这些信息。我们训练模型的方法类似于让一个小孩走过一个区域,然后描述他看到了什么,」计算机科学和人工智能实验室(CSAIL)及口语系统小组研究员DavidHarwath表示。Harwath在一篇ECCV大会论文中描述了这一模型。

在该论文中,研究人员展示了他们的模型。他们使用的图像中有一个金发碧眼的小女孩,穿着蓝色连衣裙,背景是一座红顶的白色灯塔。该模型学会了建立图像中的元素与「女孩」、「金发」、「蓝眼睛」、「蓝色裙子」、「白色灯塔」和「红色屋顶」之间的关联。给出一段音频描述,模型会根据描述显示出图像中的每个目标。

图7:左边显示了两幅图像及其语音信号。每种颜色对应于从完全随机MISA网络的两个匹配图中导出的一个连通分量。右边的掩码显示与每个语音片段相对应的片段。掩码下方展示了从ASR转录中获得的描述。请注意,这些词从未用于学习,只是用于分析。

学习不同语言之间无需双语注释的翻译是该技术一种有前景的应用。全世界大约有种口语,其中只有大约种具有充足的语音识别转录数据。如果模型从与图像中的目标对应的语言A中学习语音信号,同时从对应于相同目标的语言B中学习语音信号,该模型就能假设这两种信号(及对应的词)可以互译。

「这有可能是一种巴别鱼式的机制,」Harwath说,巴别鱼是《银河系漫游指南》小说中虚构的一种生物耳机,它将不同的语言翻译给佩戴者。该论文的合著者包括CSAIL的研究生AdriaRecasens、访问生DidacSuris、前研究员GalenChuang、电气工程和计算机科学教授兼MIT-IBM沃森人工智能实验室负责人AntonioTorralba及领导CSAIL口语系统小组的高级研究科学家JamesGlass。

声音-视觉关联

这项研究基于早期由Harwath、Glass、Torralba开发的将语音与主题相关的图像关联起来的模型。在早期研究中,他们从众包的MechanicalTurk平台的分类数据库提取场景图像。然后他们让人们按照向婴儿叙述的方式用大约10秒的时间来描述图像。他们编译了超过20万对图像和音频描述,涉及数百个不同的类别,例如海滩、购物广场、城市街道和房间等。

场景识别数据库:

转载请注明:http://www.0431gb208.com/sjszjzl/3714.html