不到现场,照样看最干货的学术报告!嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告,能让您在业余时间的知识阅读更有价值。
人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会,百度为支持单位,读芯术、PaperWeekly为合作自媒体。“AI未来说·青年学术论坛”第八期“深度学习”专场已于年8月25日下午在中科院举行。中科院陈智能为大家带来报告《计算机视觉经典——深度学习与目标检测》。
陈智能,中国科学院计算技术研究所博士,香港城市大学博士后,现为中国科学院自动化研究所副研究员,硕士生导师。主要从事多媒体内容分析与检索、医学影像分析、机器视觉方面的科研工作,曾指导学生获得年百度全国大数据竞赛一等奖,年国际嵌入式深度学习目标检测模型评测竞赛冠军,在ACMMultimedia,CVPR,MICCAI等知名国际会议和IEEETMM,PR,NN,ACMTOMM等知名期刊上发表论文50余篇。
报告内容:本次报告主要包括目标检测概述、传统目标检测方法、深度学习方法和竞赛分享四个部分。
计算机视觉经典——深度学习与目标检测
陈智能老师首先以计算机视觉的基础概念引入,介绍了计算机视觉主要任务,由此引出了目标检测的概念及其存在的问题难点,并展示了目标检测的发展历程。计算机视觉(ComputerVision)是一门“教”会计算机如何去“看”世界的学科,与自然语言处理(NaturalLanguageProcess,NLP)及语音识别(SpeechRecognition)并列为机器学习方向的三大热点方向。计算机视觉的理念与很多学科有部分重叠,包括:人工智能、数字图像处理、机器学习、深度学习、模式识别、概率图模型、科学计算以及一系列数学计算等。计算机视觉的包含很多任务,比如:图像分类(what),目标是为图像赋予一个或多个语义标签;目标检测(whatwhere),目标是找到图像中物体的类别及所在位置;图像语义分割(whatwhere),目标是找到图像中物体的类别并精确勾勒出其所在位置;图像实例分割(whatwhere),目标是当多个同类物体存在时将其一一区分出来。以上计算机视觉的任务·由粗粒度到细粒度可分为:图像分类→目标检测→图像语义分割→图像实例分割。
目标检测是在给定的图片中精确找到物体所在位置,并标注出物体的类别。其问题难点在于:物体的尺寸变化范围很大;摆放物体的角度,姿态不定;物体可以出现在图片的任何地方;物体还可以是多个类别。目标检测的发展历程经历了冷兵器时代(传统目标检测方法)和GPU之美时代(基于深度学习的目标检测方法),前者追求设计更强的特征,而后者追求网络结构、优化方法和损失函数的设计。
接着,回顾了包括VJDetector(实时目标检测(人脸))、HoG特征(行人检测)和DPM(可变形的组件模型特征)等传统目标检测方法。VJDetector算法提出的任务背景是在一张图像上检测某个特定目标(比如鸟)。由于目标可以以任意尺寸出现在任意位置,因此可以通过在图像上利用不同size的窗口滑动,并对数千个不同位置和尺寸的窗口逐一进行分类判别的方法来实现任务,但存在着消耗大量计算资源,且难以实现实时检测的问题。在上述背景下,出现了VJDetector,它是第一个实时的图像人脸检测器,其实现原理主要为:1)将图像表示为积分图像,快速计算haar-like特征;2)采用Adaboost算法,基于多个haar-like弱分类器构建强分类器;3)采用cascade级联多个强分类器,快速过滤大量不相关窗口。VJDetector主要在刚体(外观变化不大)或近似刚体的目标检测上有效。
HoG特征算法主要生成了物体检测特征描述子,实现步骤如下:1)提取整个图像的梯度特征;2)基于滑动窗方法提取检测窗口;3)对检测窗口进行划分,提取每个子区域的梯度方向直方图;4)将梯度方向直方图特征进行拼接,形成HoG特征;5)调用SVM分类器对窗口进行目标有无分类。HoG特征算法在行人等视觉表观变化较大的非刚体上也有较好效果。
DPM(DeformablePartModel)算法,是一种从HoG衍生出来的,基于组件的检测特征及算法,实现步骤如下:1)在整个图像上提取升级版的HoG特征;2)设计根滤波器(整体)和组件滤波器(局部),两类滤波器之间存在一定的空间位置约束关系;3)旨在联合提取待检测目标的整体(如行人)和多个局部(如头颅、手臂、腿部)响应区域;4)最终检测结果的高响应区域是整体和局部高响应区域的叠加。DPM算法在HoG特征的基础上提取了更具辨识力的特征。
然后按照演化进程分别介绍了采用深度学习的目标检测两阶段方法和一阶段方法。深度卷积神经网络首先通过卷积层(CONV),激活层(RELU)和池化层(POOL)的组合多次出现来提取特征,然后通过多个全连接或特殊CNN结构作为输出层来做分类器、检测器或分割器。因此,通过深度神经网络可以直接从图像像素中提取高辨识度特征。
采用深度学习的目标检测两阶段方法包括R-CNN、SPP-Net、FastR-CNN、FasterR-CNN和FPN等。R-CNN的实现步骤主要包括:1)候选区域生成,采用了选择性搜索(SelectiveSearch,SS),即根据颜色、纹理、尺寸和空间交叠相似度提取约个regionproposal(候选区域),但存在两个问题:一是对于每张图像,还需要额外的步骤提取regionproposal,二是存储和重复提取每个reglonpropσsal的特征花费大量的存储和计算资源;2)统一尺寸,采用了区域拉伸(Warpedregion),即由于通过SelectiveSearch产生的候选区域大小不一样,为了与CNN(AlexNet)兼容,将所有的候选区域统一到*的尺寸,但存在问题:将每个regionproposal统一成同样的尺寸,严重影响CNN提取特征的质量;3)特征提取,即通过卷积神经网络提取CNN特征,用于分类,但存在问题:保存所有的目标候选区域的特征大约占用了G的空间;4)区域分类,即为每一个类(包括背景类)训练SVM,但存在问题:由于SVM需要单独的训练,随着类别的增加训练SVM的个数也随之增加,使网络训练上更加复杂,且逐个执行SVM分类也将消耗较多的时间;5)边界框回归,通过学习一种映射关系,对目标候选的位置进行精化(Refine)。
SPP-Net针对R-CNN的缺点进行了改进,包括:1)R-CNN为每个regionproposal提取特征,花费了大量计算时间和存储空间,而SPP-Net先一次性提取整个图像的特征,再在特征图上取出对应于不同regionproposal的区域,从而减少了用来提取特征的时间和存储特征的空间;2)R-CNN使用Warp为每个regionproposal统一尺寸,该过程容易丢失信息/形态,严重影响了CNN提取特征的质量,而SPP-Net通过空间金字塔池化(SpatialPyramidPooling,SPP),将任意大小RoI特征统一成相同尺寸,不再需要warp输入图像,从而提升了CNN提取的特征质量,使特征更鲁棒。
FastR-CNN采用了多任务损失,即将分类损失和回归损失统一在同一个框架中,两个任务一起优化,互相促进和增强。其实现步骤如下:通过SS在图像中提取RoI→卷积网络提取特征→RoIPooling→全连接层→分类/边界框回归。
FasterR-CNN采用端到端检测网络,极大提升了检测速度,其实现步骤如下:1)在最后一个卷积层后添加候选区域生成网络(RegionProposalNetwork,RPN),即候选区域由RPN网络直接生成,不再依靠额外的候选区域生成算法;2)类似FastCNN,使用RoIPooling,使用两个分支分别计算类别和边界框回归。
FPN采用特征融合、多层预测以提升精度,即将深层特征与浅层特征相融合,并在多层预测。越深层的特征图,包含的语义信息更强,越浅层的特征图,包含的上下文信息更强,因此,FPN不仅加强了浅层特征图的语义,使特征更加鲁棒,定位更准确,还提高了检测精度,尤其是对小目标提升比较大。
采用深度学习的目标检测一阶段方法包括YOLO、SSD等。YOLO算法流程如下:1)将输入的图像划分成S*S个网格(S=7);2)每个网格预测B个边界框和这个边界框是物体的概率,具体的,每个边界框会预测出5个值:(x,y,w,h,置信度Pr(Object)*loU(truthpred));3)每个网格预测分别属于C个类的概率。SSD采用defaultbox,使得检测的速度快、精度高。其主要特点为:1)对于一张特征图,在每一个位置上提取预设数量的defaultbox,使网络不需要先提取候选目标区域,速度大幅提升;2)对于不同尺度的特征图,均直接提取预设数目defaultbox进行预测,提高了目标的检测精度,尤其是小目标。
最后,陈智能老师分享了自己所在团队参加“百度-西交大·大数据竞赛”的经历,以及个人经验与体会。竞赛题目是选取60类常见的招牌信息,进商家招牌的定位与分类,采用的检测模型是RefineDet,竞赛结果是经过初赛、复赛和决赛,获得全国第一名。对于此次竞赛,陈智能老师的个人经验与体会包括:基础网络选型和改进、数据增强、模型融合以及注意查漏补缺等。
留言点赞
转载请注明:http://www.0431gb208.com/sjslczl/3200.html