毕业论文
您现在的位置: 语言识别 >> 语言识别市场 >> 正文 >> 正文

Hinton团队CV新作用语言建模做目标

来源:语言识别 时间:2025/6/26
北京白癜风最好医院在哪 http://www.ykhongye.com/m/
<

选自arXiv

作者:TingChen等

机器之心编译

机器之心编辑部

目标检测的「尽头」是语言建模?近日,Hinton团队提出了全新目标检测通用框架Pix2Seq,将目标检测视作基于像素的语言建模任务,实现了媲美FasterR-CNN和DETR的性能表现。

视觉目标检测系统旨在在图像中识别和定位所有预定义类别的目标。检测到的目标通常由一组边界框和相关的类标签来描述。鉴于任务的难度,大多数现有方法都是经过精心设计和高度定制的,在架构和损失函数的选择方面用到了大量的先验知识。

图灵奖得主GeoffreyHinton和谷歌研究院的几位研究者近日提出了一个用于目标检测的简单通用框架Pix2Seq。与显式集成相关任务先验知识的现有方法不同,该框架简单地将目标检测转换为以观察到的像素输入为条件的语言建模任务。其中,将对目标的描述(例如边界框和类标签)表示为离散token的序列,并且该研究还训练神经网络来感知图像并生成所需的序列。

论文

转载请注明:http://www.0431gb208.com/sjszlff/9595.html