毕业论文
您现在的位置: 语言识别 >> 语言识别资源 >> 正文 >> 正文

最全综述机器人语义建图上

来源:语言识别 时间:2023/2/15

本文来源:智车科技

/导读/

大家好,今天给大家带来一篇移动机器人语义建图的综述,文章非常硬核,所以分为上下两篇文章。

内容摘要

当代移动机器人技术的发展已经推动了一系列相关技术的进步。其中就包括语义建图,它能提供对空间的抽象和人机交流的手段。最近语义建图的各种引入和发展催生了这篇文章,文中对现有方法进行了明确地分析。对几种算法按照各自的主要特征(即可扩展性、推断模型、时间一致性和拓扑地图的使用情况)进行了分类。语义地图相关的应用也在文章开头进行了概述,主要强调人机交互、认知表达和规划能力。文中还详细讨论了目前公开可用的、适合用于评估语义建图技术的验证集和基准测试。最后,尝试探讨了开放性问题的解决方案。

关键词:

移动机器人,语义地图,拓扑地图,时间一致性,对象识别,地点识别,人机交互,认知表达,规划

引言

上面引用的比喻(见原文)被逻辑地理学的创造者用来解释该术语(逻辑地理学)。但是今天的机器人专家已经意识到,他们面临着与当地村民相同的问题,而另一种情况则相反。如今,人们可能会认为,SLAM问题已经被解决了,但这一过程(SLAM)的输出只有当人们带着罗盘和测量单元的时候才能使用。因此,移动机器人的行为就像机器制图师,他们无法与当地村村民(即人类居民)交流,这些村民是凭借习惯来在自己的环境中导航的(意思就是,人类凭借经验和习惯而产生的导航能力无法直接转换成机器人建图所需的精确、一致的方位和距离)。因此,现有大多数建图方法致力于构建一个关于机器人工作环境的全局一致的度量地图。这些机器人配备了最先进的仪器,一方面可以构建地图,另一方面可以确定自己相对地图的定位,从而以惊人的精度确定自己的全局位姿。基于这种能力,机器人可以规划一条路径并朝着一个目标前进,该目标也应该位于全局地图参考框架中的某个特定度量位置(即目标点应在所建地图范围内)。然而,要让机器人像人类那样理解环境,从而能带领一个陌生人从一个地方到另一个地方,需要一种完全不同的技能,它不同于任何几何地图所能提供的技能。未来的机器人应当具备以人为本地理解周围环境的能力,即能够辨别房间和走廊的不同,或者能区分厨房和客厅的不同功能。因此,通过涉及人类(认知)概念(如房间、物体的类型,以及它们的空间布局)的语义属性来形成扩充地图,被视为未来机器人的必备属性,这些机器人应被设计为能在人类居住的环境中运作。

语义建图为该问题提供了一种解决方案,它提供了关于机器人周围环境的定性描述,这些描述旨在增强机器人的导航能力、任务规划能力以及弥补人机交互(HRI)方面的差距,参见[2-4]。特别是[4]的工作,通过使用自然语言解决了以HRI为重点的语义建图,从而为机器人与人类的社交提供了最直接的方式。因此,语义建图是一个蓬勃发展的前沿领域,催生了几篇博士论文[5,6]。单词semantic起源于希腊词xxx,代表意义,它另一方面又起源于动词xxx,意思是表示(signify),它又依次来源于名词xxx,即sign(不看也罢,非母语者很难理解)。因此,语义学与符号和符号所指的事物之间的研究有关,这就是它们的意义。后者面向识别两个或多个实体之间彼此交互、动作和处理的方式。因此,语义建图的目标是:当机器人在人类居住的区域中漫游时,识别和记录含有对人类而言有意义的信号与标志。因此,语义地图是一种对环境的增强表示,它同时包含几何信息和高层次的定性特征。通过人工智能体对自身环境的语义感知能力,和对学习到的空间记忆的精确回忆能力,可以建立人类和机器人之间基本的通信联系。因此,对于一次成功的HRI,机器人必须保持对空间的认知解释能力,即他们应该涉及有关物体和所遇到地点的语义属性,并将这些属性与对周围环境的几何感知建立联系。此外,存在于客观环境中的语义信息也需要以这种方式组织起来,人工智能体能够以该方式适当地感知和表示它所处的环境。组织所有这些信息(语义+几何)的最合适的方法就是使用地图,即语义地图。由于现代机器人是通过计算自身在度量地图中的位姿来实现在所处环境中的导航,文献中发表的大量语义建图方法都采取了在度量地图上添加语义信息的方式。因此,语义地图包含了高层次的特征,这些特征建模了人类关于地点、物体、形状甚至所有这些对象之间关联的概念,而(底层的)度量地图则保留了机器人应该了解的所有几何特征,以实现在周围环境中的安全导航。然而,应该进一步指出的是,语义建图领域已经发表了一些工作,这些工作没有使用度量地图去确定地点的类型,特别是使用视觉的情况下[8,9]。

Fig.1.语义建图方法的分类。注意,度量建图被视作语义建图的补充属性。

本篇综述的目的在于,提供有关语义建图的深刻理解,研究其中包含的不同组件,对相关文献进行分类,提供在移动机器人领域可能的应用,以及最后,引出可用于基准测试的方法和数据库。为了支撑这一目标,本文尝试对现有建图策略进行了基于质量的分类,分类应该突出这些方法保有的主导属性。在Fig.1中对语义建图方案所包含的最常见组件的分类做出了说明性的表示。这些主要特征构成了生成完整语义地图所应该满足的条件,还没有任何方案给出过这种条件。特征之一是用来对观测到的场景进行推理的模式,场景中包含易于区分不同方法丰富度的元素。具体地,许多方法只使用单一线索(如物体)来推断一个地点,而一些其他方法则利用多条线索(如物体、地点和形状等)来产生关于一个区域的语义线索。在许多语义建图技术中频繁出现的另一特征是这种地图所展现的时间一致性,这使得它在执行高级活动(如任务规划或HRI)时非常实用。典型语义建图方案所拥有的另一种重要属性是存在各自的拓扑地图,这是根据图对探索环境的一种抽象。这种图的节点以几何方式组织起来,以便于同时保存关于探索场景的概念认知。这些图既可以是只保留几何特征的无约束图,也可以根据他们所包含的语义属性拥有多个约束。探索环境(室内或室外)的2D或3D度量图是作为一个补充组件而存在,它经常用于补充由符号学方法实现的属性。根据每种方法被扩展的尺度,度量地图既可以是一个单独场景,也可以是一个渐进创建的地图,即位姿分别以局部或全局坐标系作参考。

发展历程

在应用于机器人导航的几种模式中,视觉占据主导地位。这主要是因为学者们能够将自己基于视觉的导航经验直接复制到他们的实验机上。[10]中对基于视觉的机器人导航的前二十年进行了综述。这项工作是在十多年前进行的,它得出的结论是,尽管当时(年)对将移动机器人从一个坐标发送到另一个坐标积累了足够的专业知识,但仍不足以执行功能/任务驱动地导航,例如从大厅内的某个地方找到并带回一个灭火器。此外,这篇文章还认为,如果机器人在一个导航范式中需要意识到它所要操作对象的意义,那么这种导航范式是笨重、难以处理的。对于这种导航情况的任何解决方案都需要和计算机视觉的整体问题相关联,即自动场景判断。参考Kuipers的先驱性工作[11-13],在过去的十年中引入了几种语义建图和导航方案,以期填补这一空白。当然,为了让机器人能够高效地导航,必须建立一个一致的几何地图。因此,我们可以说,除非事先在SLAM领域取得进展,否则在语义建图领域不会取得任何进展。在过去的几十年间,在各自领域里都进行了大量艰苦的研究,这些研究在移动机器人导航和建图领域取得了显著的成果[14]。为了精确定位自身[15,16],移动机器人构建了其工作环境空间布局的一致表示。在[14,17-19]中发表的代表性工作,证明了准确表示机器人周围环境与开发高效建图方法的必要性。更准确地说,SLAM为这一问题提供了解决方案。通过SLAM,被放置在未探索区域中任意位置地点的移动机器人都可以逐步建立一个环境的一致地图,同时同时确定自己在地图中的位置。为了寻找该问题的有效解决方案,已经进行了一些成功的研究尝试,它们的分析总结被发表在一篇综述中20,21。

Fig.2.(a)探索的室内环境的2D度量地图实例,(b)对应的拓扑地图和(c)混合拓扑-度量地图,其中拓扑地图中的每个节点都登记在占用网格的特定空间区域。

然而,要想更深入地理解SLAM,需要进一步分解问题。根据环境感知方式,尝试对现有的几何建图方案进行分类,可以分成三类,即度量、拓扑和拓扑-度量建图。度量建图由一种几何表示构成,其中每个位姿都与一个全局坐标系严格相关。这通常表现为一幅3D或2D占用网格,能满足机器人的精确定位。此外,拓扑建图涉及到一张(拓扑)图,图中的每个节点都对应真实环境中的一个不同地点[22,23],例如放置于车厢门上方的地铁地图。同一场景的度量地图和拓扑地图分别如Fig.2(a)和Fig.2(b)所示。最新的方法是拓扑-度量建图,它由拓扑和度量建图的组合构成,正如Fig.2(c)所展示的那样。该方法有助于实现更加快速、精确地机器人定位。该方法早期引入了一种结合了度量和拓扑地图的拓扑-度量方法,旨在重构连续-离散混合状态空间中的机器人路径[24]。在最近的一个方案中,SLAM问题是通过结合视觉回环检测与测量信息(来源于实时生成的、关于未知环境的拓扑-度量地图)来解决的。尽管迄今为止所开发的所有方法都被证明足以支持机器人导航到特定的目标位置,但它们缺乏适合于典型环境中作业的高层级属性。因此,(研究内容)转向构建具有认知能力的、以人类为中心的地图是不可避免的。因此,机器人的当代(技术)趋势是设计在人类环境中行为接近生物的智能体。

语义地图构建趋势

3.1基于规模的分类

Fig.3.基于规模分类的图形化表示。

由于在许多情况下,语义地图都是建立在度量地图之上的,因此可以基于底层方法保留的规模(即度量地图的规模)对现有技术进行简单的分类。因此,语义建图范式已经被应用于室内和室外情况,此外,为室内场景开发的方案还被进一步划分为单一场景和大规模场景两种。单一场景类涉及的方法,可以根据局部坐标系推断实例框架,还能提供有关场景中被观测对象的概念属性。此外,大规模方法逐步构建一个关于全局坐标系的度量地图,同时还标注了高层级特征,如对象类别、地点标签和形状解释。关于室外方案,值得注意的是几乎没有任何单一场景的方法。对文献中发表的方法按照规模进行了分类,总结的结果如Fig.3所示,其中值得注意的是,大规模室内情况占据了大部分研究内容。

3.1.1室内单一场景解释

Fig.4.室内单一场景解释的一个实例[33]。

Nielsen等人[26]将语义建图近似为机器人和人类之间的接口。他们引入了单帧快照应用作为一种捕获真实世界照片并存储他们方法,以此扩展度量地图。特别是地图的改进是通过图标或符号来完成的,从而提供了地点和感兴趣物体的意义。在Kostavelis等人提出的早期工作[27]中,一种基于SVM的记忆算法被用于语义推断场景的可遍历性。由于语义推理被局部路径规划算法进一步利用,该项工作适用于灾后的室内环境。[28]中描述的方法利用了立体视觉,并且在图像平面上进行操作,以对场景的可遍历性进行分类。值得注意的是,这项工作在室内和室外都表现出卓越的性能。Rusu等人[29]提出了一种室内机器人,它配备有一个立体相机和一个SICK激光扫描仪,能够对厨房内的物体进行推断。该方法通过融合各种传感器输入来获取所感知环境的基本信息,同时机器人还能从示范中学习。Viswanathan等人[30,31]提出了一种利用LabelMe数据集[32]来解决视觉位置识别问题的方案。LabelMe数据集是一个由用户注释图像组成的在线数据库。在LabelMe中,用户可以通过选择一个多边形区域,并将其与适当的标签相关联来标注图像中的物体。在近期的工作中,Trevor等人[33]通过RGB-D数据引入了利用关联组件实践的单一场景点云分割。首先,对点云数据进行平面分割,以区分场景中的主平面。然后,在彩色图向上应用基于L2范数的聚类和关联组件标记蒙版,以检测桌面上的物体,如Fig.4所示。Swadzba等人[34]引入了适用于单个场景分类的空间3D特征向量,该向量作用于预先捕获的帧。在另一项单一场景解释工作中,Mozos等人[35]使用了微软Kinect传感进行视觉地点分类。此外,[36]的作者还利用视觉输入来推断在机器人探索过程中被检测到的物体的类别标签。对这条信息进行分层融合处理,以进一步根据现有对象刻画观测到的场景。

3.1.2室内大规模场景解释

Fig.5.一个室内场景解释的实例[40],其中对可使用物体进行了标注。

考虑到室内大规模场景解释方法,人们可以根据传感器和构建度量地图所用的策略来进行划分。因此,文献[37-41]采用了安装在移动机器人上的激光扫描仪来重建三维环境。更具体地说,Nüchter等人[37]利用了SICK激光扫描仪来捕获场景的°地图。通过语义标签建立连续获取的点云的对应关系,然后通过迭代最近点(ICP)算法进行配准,以获得全局一致的地图。Blodow等人[38]以类似的方式,利用逐渐获得的激光扫描(点云)与2D-3D配准程序结合来形成度量地图。分割技术被用于产生关于物体意义的初始假设,例如家具抽屉和门。Rusu等人[39,41]通过处理大型输入数据集,并提取相关物体,扩展了几何地图。被建模的物体是专用于厨房场景的,如电器、橱柜、桌子和抽屉等,它们对于家庭助理机器人而言具有特殊意义。[40]中使用了结合旋转单元和里程计估计的HokuyoUTM-30LX测量,来构建探索环境的3D地图。基于特征的地图包含水平表面(如桌子、架子或柜台等)的位置信息,这些表面是在3D点云中被检测到的,如Fig.5所示,其中代表性平面区域以不同颜色显示。此外,Trevor等人[42]利用GTSAM方法生成了探索环境的度量地图。该方法定义了可用于SLAM和语义建图的各种特征类型。在一个对探索环境生成语义推断的群体机器人范式中,[43]的作者利用激光扫描仪生成了一幅3D度量地图。

Fig.6.室内大规模解释的一个实例[3]。

[3,44]中描述的方法都采用RGB-D传感器来获取环境的3D地图。在[3]中,采用分层策略创建了一个全局一致的3D度量地图。首先,使用视觉测程法对连续获取的点云进行合并,然后基于主导平面ICP配准进行细化。接着,采用结合SVM的特征袋技术对多个不相似地点进行精准识别,如Fig.6所示。第二种基于RGB-D的方法[44]采用了SLAM6D工具包将下级点云注册到一致的全景点云中。

与[40]类似,基于特征的地图采用了不同类型的家具及其位姿,而在这种情况下,通过家具各自的计算机辅助设计(CAD)模型,可以进一步增强效果。Civera等人[45]采用单目SLAM算法来创建所感知环境的度量地图。该算法并行地运行基于EKF的单目SLAM和对象识别线程,并利用该线程对场景进行语义标注。

另一类室内大规模语义建图方法是利用激光扫描仪生成2D占用网格建模,以探索环境。Mozos等人[46]利用了两个装配有SICK激光扫描仪的不同机器人,利用CARMEN软件模拟不同地图中的激光扫描。此外,该方法使用AdaBoost将从距离数据提取出的简单特征增强为强分类器。进一步地,在[2,48,49,4]中提取了激光距离扫描的几何基元,然后应用EKF来整合特征测量结果。[50]中,作者采用一个装配有2D激光扫描仪的机器人,根据标准SLAM方法,构建了环境的占用网格,并将其作为构建语义模型的基础。所有这些方法所使用的几何特征都是线,它通常对应于墙壁和其它在激光扫描仪所处高度以线段形式出现的直线结构。[2]中使用了一种图模型表示语义信息并实现了推理,而在[48]中则是使用了基于SVM的线索整合机制实现推理的。[49]中,利用有关现有物体的局部和全局信息来扩充/增强所生成的地图。Zender等人[4]以类似的方式分别通过激光和视觉数据来识别地点和物体,以增强所构建的度量地图。此外,[51]捕获激光扫描来检测地图中的转换,然后在回环检测规则下将其合并到全局度量地图中。最近,Luperto等人[52]利用背靠背放置的激光扫描仪来覆盖机器人周围°的区域。然后在探索区域的语义划分过程中使用这个度量地图。Pronobis等人[43]提出了一种结合多种视觉与几何信息的多层语义建图算法。利用M空间特征表示构建度量地图。

相同室内类别的进一步分类包括利用立体视觉获取场景深度信息的研究工作,这些深度信息随后被用于解决SLAM问题,从而获得全局一致的度量地图[54,55]。具体地,[54]中由SLAM生成的地图利用对象标签进行扩充/增强,这些标签是通过SIFT特征识别的。而在[55]中,通过在带有文本标签(如房间号和办公人员姓名)的办公室环境中引入文本检测来对基于SLAM的地图进行扩展。此外,Nieto-Granda等人[51]利用内置于ROS中的SLAM建图模块(基于Rao-Blackwellized粒子滤波器技术),通过高斯模型将生成的地图划分成带标记的区域。Feng等人[58]提出了一种室内环境下移动机器人定位框架,其中使用了单应性和匹配等概念,这些概念来源于立体图像检索技术和基于内容的图像检索技术。[59]中的工作利用视觉SLAM系统来创建一个大范围度量地图,其中包含了机器人在移动过程中观测到的不同特征的3D位置。

最后,值得一提的是,还有大量只

转载请注明:http://www.0431gb208.com/sjslczl/3345.html