深度学习目标检测ssd论文解读

3个回答默认排序

默认排序

按时间排序

如颖随心

已采纳

深度学习目前已经应用到了各个领域，应用场景大体分为三类：物体识别，目标检测，自然语言处理。目标检测可以理解为是物体识别和物体定位的综合，不仅仅要识别出物体属于哪个分类，更重要的是得到物体在图片中的具体位置。 2014年R-CNN算法被提出，基本奠定了two-stage方式在目标检测领域的应用。它的算法结构如下图算法步骤如下： R-CNN较传统的目标检测算法获得了50%的性能提升，在使用VGG-16模型作为物体识别模型情况下，在voc2007数据集上可以取得66%的准确率，已经算还不错的一个成绩了。其最大的问题是速度很慢，内存占用量很大，主要原因有两个针对R-CNN的部分问题，2015年微软提出了Fast R-CNN算法，它主要优化了两个问题。 R-CNN和fast R-CNN均存在一个问题，那就是由选择性搜索来生成候选框，这个算法很慢。而且R-CNN中生成的2000个左右的候选框全部需要经过一次卷积神经网络，也就是需要经过2000次左右的CNN网络，这个是十分耗时的（fast R-CNN已经做了改进，只需要对整图经过一次CNN网络）。这也是导致这两个算法检测速度较慢的最主要原因。 faster R-CNN 针对这个问题，提出了RPN网络来进行候选框的获取，从而摆脱了选择性搜索算法，也只需要一次卷积层操作，从而大大提高了识别速度。这个算法十分复杂，我们会详细分析。它的基本结构如下图主要分为四个步骤：使用VGG-16卷积模型的网络结构：卷积层采用的VGG-16模型，先将PxQ的原始图片，缩放裁剪为MxN的图片，然后经过13个conv-relu层，其中会穿插4个max-pooling层。所有的卷积的kernel都是3x3的，padding为1，stride为1。pooling层kernel为2x2, padding为0，stride为2。 MxN的图片，经过卷积层后，变为了(M/16) x (N/16)的feature map了。 faster R-CNN抛弃了R-CNN中的选择性搜索（selective search）方法，使用RPN层来生成候选框，能极大的提升候选框的生成速度。RPN层先经过3x3的卷积运算，然后分为两路。一路用来判断候选框是前景还是背景，它先reshape成一维向量，然后softmax来判断是前景还是背景，然后reshape恢复为二维feature map。另一路用来确定候选框的位置，通过bounding box regression实现，后面再详细讲。两路计算结束后，挑选出前景候选框（因为物体在前景中），并利用计算得到的候选框位置，得到我们感兴趣的特征子图proposal。卷积层提取原始图像信息，得到了256个feature map，经过RPN层的3x3卷积后，仍然为256个feature map。但是每个点融合了周围3x3的空间信息。对每个feature map上的一个点，生成k个anchor（k默认为9）。anchor分为前景和背景两类（我们先不去管它具体是飞机还是汽车，只用区分它是前景还是背景即可）。anchor有[x,y,w,h]四个坐标偏移量，x,y表示中心点坐标，w和h表示宽度和高度。这样，对于feature map上的每个点，就得到了k个大小形状各不相同的选区region。对于生成的anchors，我们首先要判断它是前景还是背景。由于感兴趣的物体位于前景中，故经过这一步之后，我们就可以舍弃背景anchors了。大部分的anchors都是属于背景，故这一步可以筛选掉很多无用的anchor，从而减少全连接层的计算量。对于经过了3x3的卷积后得到的256个feature map，先经过1x1的卷积，变换为18个feature map。然后reshape为一维向量，经过softmax判断是前景还是背景。此处reshape的唯一作用就是让数据可以进行softmax计算。然后输出识别得到的前景anchors。另一路用来确定候选框的位置，也就是anchors的[x,y,w,h]坐标值。如下图所示，红色代表我们当前的选区，绿色代表真实的选区。虽然我们当前的选取能够大概框选出飞机，但离绿色的真实位置和形状还是有很大差别，故需要对生成的anchors进行调整。这个过程我们称为bounding box regression。假设红色框的坐标为[x,y,w,h], 绿色框，也就是目标框的坐标为[Gx, Gy,Gw,Gh], 我们要建立一个变换，使得[x,y,w,h]能够变为[Gx, Gy,Gw,Gh]。最简单的思路是，先做平移，使得中心点接近，然后进行缩放，使得w和h接近。如下：我们要学习的就是dx dy dw dh这四个变换。由于是线性变换，我们可以用线性回归来建模。设定loss和优化方法后，就可以利用深度学习进行训练，并得到模型了。对于空间位置loss，我们一般采用均方差算法，而不是交叉熵（交叉熵使用在分类预测中）。优化方法可以采用自适应梯度下降算法Adam。得到了前景anchors，并确定了他们的位置和形状后，我们就可以输出前景的特征子图proposal了。步骤如下： 1，得到前景anchors和他们的[x y w h]坐标。 2，按照anchors为前景的不同概率，从大到小排序，选取前pre_nms_topN个anchors，比如前6000个 3，剔除非常小的anchors。 4，通过NMS非极大值抑制，从anchors中找出置信度较高的。这个主要是为了解决选取交叠问题。首先计算每一个选区面积，然后根据他们在softmax中的score（也就是是否为前景的概率）进行排序，将score最大的选区放入队列中。接下来，计算其余选区与当前最大score选区的IOU（IOU为两box交集面积除以两box并集面积，它衡量了两个box之间重叠程度）。去除IOU大于设定阈值的选区。这样就解决了选区重叠问题。 5，选取前post_nms_topN个结果作为最终选区proposal进行输出，比如300个。经过这一步之后，物体定位应该就基本结束了，剩下的就是物体识别了。和fast R-CNN中类似，这一层主要解决之前得到的proposal大小形状各不相同，导致没法做全连接。全连接计算只能对确定的shape进行运算，故必须使proposal大小形状变为相同。通过裁剪和缩放的手段，可以解决这个问题，但会带来信息丢失和图片形变问题。我们使用ROI pooling可以有效的解决这个问题。 ROI pooling中，如果目标输出为MxN，则在水平和竖直方向上，将输入proposal划分为MxN份，每一份取最大值，从而得到MxN的输出特征图。 ROI Pooling层后的特征图，通过全连接层与softmax，就可以计算属于哪个具体类别，比如人，狗，飞机，并可以得到cls_prob概率向量。同时再次利用bounding box regression精细调整proposal位置，得到bbox_pred，用于回归更加精确的目标检测框。这样就完成了faster R-CNN的整个过程了。算法还是相当复杂的，对于每个细节需要反复理解。faster R-CNN使用resNet101模型作为卷积层，在voc2012数据集上可以达到的准确率，超过yolo ssd和yoloV2。其最大的问题是速度偏慢，每秒只能处理5帧，达不到实时性要求。针对于two-stage目标检测算法普遍存在的运算速度慢的缺点， yolo创造性的提出了one-stage。也就是将物体分类和物体定位在一个步骤中完成。 yolo直接在输出层回归bounding box的位置和bounding box所属类别，从而实现one-stage。通过这种方式， yolo可实现45帧每秒的运算速度，完全能满足实时性要求（达到24帧每秒，人眼就认为是连续的）。它的网络结构如下图：主要分为三个部分：卷积层，目标检测层，NMS筛选层。采用Google inceptionV1网络，对应到上图中的第一个阶段，共20层。这一层主要是进行特征提取，从而提高模型泛化能力。但作者对inceptionV1进行了改造，他没有使用inception module结构，而是用一个1x1的卷积，并联一个3x3的卷积来替代。（可以认为只使用了inception module中的一个分支，应该是为了简化网络结构）先经过4个卷积层和2个全连接层，最后生成7x7x30的输出。先经过4个卷积层的目的是为了提高模型泛化能力。yolo将一副448x448的原图分割成了7x7个网格，每个网格要预测两个bounding box的坐标(x,y,w,h)和box内包含物体的置信度confidence，以及物体属于20类别中每一类的概率（yolo的训练数据为voc2012，它是一个20分类的数据集）。所以一个网格对应的参数为（4x2+2+20) = 30。如下图其中前一项表示有无人工标记的物体落入了网格内，如果有则为1，否则为0。第二项代表bounding box和真实标记的box之间的重合度。它等于两个box面积交集，除以面积并集。值越大则box越接近真实位置。分类信息： yolo的目标训练集为voc2012，它是一个20分类的目标检测数据集。常用目标检测数据集如下表： | Name | # Images (trainval) | # Classes | Last updated | | --------------- | ------------------- | --------- | ------------ | | ImageNet | 450k | 200 | 2015 | | COCO | 120K | 90 | 2014 | | Pascal VOC | 12k | 20 | 2012 | | Oxford-IIIT Pet | 7K | 37 | 2012 | | KITTI Vision | 7K | 3 | | 每个网格还需要预测它属于20分类中每一个类别的概率。分类信息是针对每个网格的，而不是bounding box。故只需要20个，而不是40个。而confidence则是针对bounding box的，它只表示box内是否有物体，而不需要预测物体是20分类中的哪一个，故只需要2个参数。虽然分类信息和confidence都是概率，但表达含义完全不同。筛选层是为了在多个结果中（多个bounding box）筛选出最合适的几个，这个方法和faster R-CNN 中基本相同。都是先过滤掉score低于阈值的box，对剩下的box进行NMS非极大值抑制，去除掉重叠度比较高的box（NMS具体算法可以回顾上面faster R-CNN小节）。这样就得到了最终的最合适的几个box和他们的类别。 yolo的损失函数包含三部分，位置误差，confidence误差，分类误差。具体公式如下：误差均采用了均方差算法，其实我认为，位置误差应该采用均方差算法，而分类误差应该采用交叉熵。由于物体位置只有4个参数，而类别有20个参数，他们的累加和不同。如果赋予相同的权重，显然不合理。故yolo中位置误差权重为5，类别误差权重为1。由于我们不是特别关心不包含物体的bounding box，故赋予不包含物体的box的置信度confidence误差的权重为，包含物体的权重则为1。 Faster R-CNN准确率mAP较高，漏检率recall较低，但速度较慢。而yolo则相反，速度快，但准确率和漏检率不尽人意。SSD综合了他们的优缺点，对输入300x300的图像，在voc2007数据集上test，能够达到58 帧每秒( Titan X 的 GPU )，的mAP。 SSD网络结构如下图：和yolo一样，也分为三部分：卷积层，目标检测层和NMS筛选层 SSD论文采用了VGG16的基础网络，其实这也是几乎所有目标检测神经网络的惯用方法。先用一个CNN网络来提取特征，然后再进行后续的目标定位和目标分类识别。这一层由5个卷积层和一个平均池化层组成。去掉了最后的全连接层。SSD认为目标检测中的物体，只与周围信息相关，它的感受野不是全局的，故没必要也不应该做全连接。SSD的特点如下。每一个卷积层，都会输出不同大小感受野的feature map。在这些不同尺度的feature map上，进行目标位置和类别的训练和预测，从而达到多尺度检测的目的，可以克服yolo对于宽高比不常见的物体，识别准确率较低的问题。而yolo中，只在最后一个卷积层上做目标位置和类别的训练和预测。这是SSD相对于yolo能提高准确率的一个关键所在。如上所示，在每个卷积层上都会进行目标检测和分类，最后由NMS进行筛选，输出最终的结果。多尺度feature map上做目标检测，就相当于多了很多宽高比例的bounding box，可以大大提高泛化能力。和faster R-CNN相似，SSD也提出了anchor的概念。卷积输出的feature map，每个点对应为原图的一个区域的中心点。以这个点为中心，构造出6个宽高比例不同，大小不同的anchor（SSD中称为default box）。每个anchor对应4个位置参数(x,y,w,h)和21个类别概率（voc训练集为20分类问题，在加上anchor是否为背景，共21分类）。如下图所示：另外，在训练阶段，SSD将正负样本比例定位1：3。训练集给定了输入图像以及每个物体的真实区域（ground true box），将default box和真实box最接近的选为正样本。然后在剩下的default box中选择任意一个与真实box IOU大于的，作为正样本。而其他的则作为负样本。由于绝大部分的box为负样本，会导致正负失衡，故根据每个box类别概率排序，使正负比例保持在1：3。SSD认为这个策略提高了4%的准确率另外，SSD采用了数据增强。生成与目标物体真实box间IOU为的patch，随机选取这些patch参与训练，并对他们进行随机水平翻转等操作。SSD认为这个策略提高了的准确率。和yolo的筛选层基本一致，同样先过滤掉类别概率低于阈值的default box，再采用NMS非极大值抑制，筛掉重叠度较高的。只不过SSD综合了各个不同feature map上的目标检测输出的default box。 SSD基本已经可以满足我们手机端上实时物体检测需求了，TensorFlow在Android上的目标检测官方模型，就是通过SSD算法实现的。它的基础卷积网络采用的是mobileNet，适合在终端上部署和运行。针对yolo准确率不高，容易漏检，对长宽比不常见物体效果差等问题，结合SSD的特点，提出了yoloV2。它主要还是采用了yolo的网络结构，在其基础上做了一些优化和改进，如下网络采用DarkNet-19：19层，里面包含了大量3x3卷积，同时借鉴inceptionV1，加入1x1卷积核全局平均池化层。结构如下 yolo和yoloV2只能识别20类物体，为了优化这个问题，提出了yolo9000，可以识别9000类物体。它在yoloV2基础上，进行了imageNet和coco的联合训练。这种方式充分利用imageNet可以识别1000类物体和coco可以进行目标位置检测的优点。当使用imageNet训练时，只更新物体分类相关的参数。而使用coco时，则更新全部所有参数。 YOLOv3可以说出来直接吊打一切图像检测算法。比同期的DSSD(反卷积SSD), FPN（feature pyramid networks）准确率更高或相仿，速度是其1/3.。 YOLOv3的改动主要有如下几点：不过如果要求更精准的预测边框，采用COCO AP做评估标准的话，YOLO3在精确率上的表现就弱了一些。如下图所示。当前目标检测模型算法也是层出不穷。在two-stage领域， 2017年Facebook提出了mask R-CNN 。CMU也提出了A-Fast-RCNN 算法，将对抗学习引入到目标检测领域。Face++也提出了Light-Head R-CNN，主要探讨了 R-CNN 如何在物体检测中平衡精确度和速度。 one-stage领域也是百花齐放，2017年首尔大学提出 R-SSD 算法，主要解决小尺寸物体检测效果差的问题。清华大学提出了 RON 算法，结合 two stage 名的方法和 one stage 方法的优势，更加关注多尺度对象定位和负空间样本挖掘问题。目标检测领域的深度学习算法，需要进行目标定位和物体识别，算法相对来说还是很复杂的。当前各种新算法也是层不出穷，但模型之间有很强的延续性，大部分模型算法都是借鉴了前人的思想，站在巨人的肩膀上。我们需要知道经典模型的特点，这些tricks是为了解决什么问题，以及为什么解决了这些问题。这样才能举一反三，万变不离其宗。综合下来，目标检测领域主要的难点如下：一文读懂目标检测AI算法：R-CNN，faster R-CNN，yolo，SSD，yoloV2 从YOLOv1到v3的进化之路 SSD-Tensorflow超详细解析【一】：加载模型对图片进行测试 YOLO C#项目参考：项目实践贴个图。

116 评论 2小时前发布

蒋馨瑗SHELLEY

目标检测论文整理最近开始看一些object detection的文章，顺便整理一下思路。排版比较乱，而且几乎所有图片都是应用的博客或论文，如有侵权请联系我。文章阅读路线参考目前已完成的文章如下，后续还会继续补充（其中加粗的为精读文章）：RCNNOverfeatMR-CNNSPPNetFast RCNNA Fast RCNNFaster RCNNFPNR-FCNMask RCNNYOLOYOLO 9000YOLO v3SSDDSSDR-SSDRetinaNet（focal loss）DSODCascade R-CNN（待续）吐槽一下，博客园的markdown竟然没有补齐功能，我还是先在本地补全再传上来吧。。。RCNN之前的故事Histogram of Gradient (HOG) 特征在深度学习应用之前，图像的特征是人工定义的具有鲁棒性的特征，如SIFT，HOG等，下面简要介绍一下HOG。8x8像素框内计算方向梯度直方图：HOG Pyramid特征金字塔，对于不同大小的物体进行适应，设计尺度不变性特征HOG特征 -> SVM分类DPM模型 Deformable Part Model加组件组合的HOG特征，组件间计算弹性得分，优化可变形参数如果没有弹性距离，就是BoW (Bag of Word)模型，问题很大，位置全部丢失:n个组件的DPM计算流程:Selective Search 思想过分割后基于颜色纹理等相似度合并,然后，过分割、分层合并、建议区域排序基于Selective Search + DPM/HoG + SVM的物体识别此时的框架就是RCNN的雏形，因为DPM就是基本由RBG和他导师主导，所以大神就是大神。AlexNet的图像分类（深度学习登场）2012年AlexNet赢得LSVRC的ImageNet分类竞赛。深度CNN结构用来图像特征提取。bounding-box regression 框回归BBR 在DPM时代就和SVM分类结合，一般直接使用线性回归，或者和SVR结合RCNN: Rich feature hierarchies for accurate object detection and semantic segmentationRCNN作为深度学习用于目标检测的开山之作，可以看出是基于Selective Search + DPM/HoG + SVM框架，只不过将是将手工特征转变为CNN提取特征，本文主要贡献如下：CNN用于object detection解决数据集不足的问题主要流程如下：regional preposals（selective research）CNN feature extractionSVM ClassificationNMSbounding-box regression（BBR）为啥能work？优秀的目标检测框架，region proposal 和 regression offset降低了目标检测的难度，强大的CNN特征提取器，代替传统的已经到瓶颈的手工特征迁移训练降低了对数据集的要求MR-CNN：Object detection via a multi-region & semantic segmentation-aware CNN modelMulti-Region的提出，开始对Box进一步做文章，相当于对Box进一步做增强，希望改进增强后的效果，主要改善了部分重叠交叉的情况。特征拼接后使得空间变大，再使用SVM处理，效果和R-CNN基本类似.OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks不得不说虽然OverFeat在但是比赛成绩不是太好，但是它的思想还是很有启发性的。OverFeat直接抛弃了Selective Search，采用CNN上slide windows来进行框推荐，并且把Bounding box Regression整合一起使用全连接层搞定，解决了后面一端的问题（取代了SVM分类器和BBR线性回归器），这个思想影响了后来的Fast RCNN。是第一个End to End 的目标检测模型，模型虽然简陋，但是可以验证网络强大的拟合能力注意整合目标检测的各项功能（分类，回归）。亮点：先用CNN得到feature map再做slide windows推荐区域，避免了特征重复计算。设计了End to End模型，方便优化和加快检测速度设计全卷积网络，并进行多尺度图像训练maxpool offset（没有Fast RCNN的ROI Pooling自然）为啥能work？可以看出OverFeat将不同的两个问题物体分类和位置回归采用了两个分支网络，共用前面的CNN特征表述，而CNN提取的特征正如OverFeat所言，是一种类似于SIFT，HOG等人工描述子的一种稳定的描述子（底层抽象），可以用于构建不同的任务（高层表述），也就是模型为什么能work的原因。SPPNetR-CNN和Overfeat都存在部分多尺度，重叠效果的问题。某种意义上，应对了HoG特征，这样对于物体来说类似BoW模型，我们知道DPM里面，是带有组件空间分布的弹性得分的，另外也有HoG Pyramid的思想。如何把Pyramid思想和空间限制得分加入改善多尺度和重叠的效果呢？ MR-CNN里面尝试了区域增强， Overfeat里面尝试了多尺度输入。但是效果都一般。这里我们介绍另外一个技术Spatial Pyramid Matching, SPM，是采用了空间尺度金字塔的特点。和R-CNN相比做到了先特征后区域，和Overfeat相比自带Multi-Scale。SPP pooling layer 的优势：解决了卷积层到全连接层需要固定图片大小的问题，方便多尺度训练。能够对于任意大小的输入产生固定的输出，这样使得一幅图片的多个region proposal提取一次特征成为可能。进一步强调了CNN特征计算前移，区域处理后移的思想，极大节省计算量也能看出文章还是强调用CNN做特征的提取，还是用的BBR和SVM完成回归和分类的问题Fast RCNN可以看出Fast RCNN结合了OverFeat和Sppnet的实现，打通了高层表述和底层特征之间的联系主要流程：任意size图片输入CNN网络，经过若干卷积层与池化层，得到特征图；在任意size图片上采用selective search算法提取约2k个建议框；根据原图中建议框到特征图映射关系，在特征图中找到每个建议框对应的特征框【深度和特征图一致】，并在RoI池化层中将每个特征框池化到H×W【VGG-16网络是7×7】的size；固定H×W【VGG-16网络是7×7】大小的特征框经过全连接层得到固定大小的特征向量；将上一步所得特征向量经由各自的全连接层【由SVD分解实现(全连接层加速)】，分别得到两个输出向量：一个是softmax的分类得分，一个是Bounding-box窗口回归；利用窗口得分分别对每一类物体进行非极大值抑制剔除重叠建议框其中ROI POOL层是将每一个候选框映射到feature map上得到的特征框经池化到固定的大小，其次用了SVD近似求解实现全连接层加速。这里需要注意的一点，作者在文中说道即使进行多尺度训练，map只有微小的提升，scale对Fast RCNN的影响并不是很大，反而在测试时需要构建图像金字塔使得检测效率降低。这也为下一步的多尺度改进埋下了伏笔。为啥能更好的work？也是结合了OverFeat的和SPPnet的work，同时规范了正负样本的判定（之前由于SVM和CNN对区域样本的阈值划分不同而无法统一网络，当然这只是其中的一个原因。更多的估计是作者当时没想到），将网络的特征抽取和分类回归统一到了一个网络中。A Fast RCNN： Hard Positive Generation via Adversary for Object Detection这篇论文是对,CMU与rbg的online hard example mining(OHEM)改进，hard example mining是一个针对目标检测的难例挖掘的过程，这是一个更充分利用数据集的过程。实际上在RCNN训练SVM时就已经用到，但是OHEM强调的是online，即如何在训练过程中选择样本。同期还有S-OHEM的改进。而随着但是GAN的火热，A-Fast-RCNN尝试生成hard example（使用对抗网络生成有遮挡和有形变的两种特征，分别对应网络ASDN和ASTN）结论如下：ASTN 和随机抖动（random jittering）做了对比，发现使用AlexNet，mAP分别是和，使用VGG16，mAP分别是和，ASTN 的表现都比比随机抖动效果好。作者又和OHEM对比，在VOC 2007数据集上，本文方法略好（ vs. ），而在VOC 2012数据集上，OHEM更好（ vs. ）。gan用于目标检测还没有很好的idea，这篇论文相当于抛砖引玉了。同时需要注意的一个问题，网络对于比较多的遮挡和形变情况识别情况更好；但是对于正常目标的特征抽象能力下降，所以有时候创造难例也要注意样本的数量。下面是一些由于遮挡原因造成的误判。Faster RCNN：Towards Real-Time Object Detection with Region Proposal Networks这篇文章标志着two-stage目标检测的相对成熟，其主要改进是对候选区域的改进，将候选区域推荐整合进了网络中。结合后面的一系列文章，可以马后炮一下它的缺点：虽然Faster RCNN已经共享了绝大部分卷积层运算，但是RoI之后还有部分ConvNet的计算，有没有可能把ROI之上的计算进一步前移？请看R-FCNFaster RCNN还是没有很好的解决多尺度问题，如何解决，请看FPNYOLO：You Only Look Once作者的论文简直是一股论文界的泥石流，作者本身是一个喜欢粉红小马的大叔，萌萌哒。实际上YOLO一直发展到v3都是简单粗暴的目标检测方法，虽然学术界模型繁杂多样，但是在实际应用工业应用上YOLO绝对是一个首选的推荐。YOLO v1版本现在看来真是简单粗暴，也印证了网络抽象的强大之处。可以看出作者没有受到太多前辈的影响，将对象检测重新定义为单个回归问题，直接从图像像素到边界框坐标和类概率（当然这也是一个缺少坐标约束也是一个缺点）。YOLO的明显缺点，如多尺度问题，密集物体，检测框耦合，直接回归坐标等在yolo 9000中也做了比较好的改进。SSD：Single Shot MultiBox DetectorSSD作为one stage的代表模型之一，省去了判断推荐候选区域的步骤(实际上可以认为one-stage就是以feature map cell来抽象代替ROI Pooling功能），虽然SSD和Faster RCNN在Anchor box上一脉相承，但是Faster RCNN却还是有一个推荐候选区域（含有物体的区域）的监督部分（注意后面其实也是整合到了最终Loss中），因此one-stage优势是更快，而含有区域推荐的two-stage目前是更加准确一些。（更看好one-stage，其实区域推荐不太符合视觉系统，但是可以简化目标检测问题），主要贡献：用多尺度feature map来预测，也生成了更多的default box检测框对每一类对象产生分数（低耦合，对比yolo）缺点：底层feature map高级语义不足（FPN)正负样本影响 (focal loss)feature map抽象分类和回归任务只用了两个卷积核抽象性不足（DSSD）为啥能更好的工作？SSD的出现对多尺度目标检测有了突破性进展，利用卷积层的天然金字塔形状，设定roi scale让底层学习小物体识别，顶层学习大物体识别FPN：feature pyramid networksSSD网络引入了多尺度feature map，效果显著。那Faster RCNN自然也不能落后，如何在Faster RCNN中引入多尺度呢？自然有FPN结构同时FPN也指出了SSD因为底层语义不足导致无法作为目标检测的feature map注意原图的候选框在Faster RCNN中只固定映射到同一个ROI Pooling中，而现在如果某个anchor和一个给定的ground truth有最高的IOU或者和任意一个Ground truth的IOU都大于，则是正样本。如果一个anchor和任意一个ground truth的IOU都小于，则为负样本。本文算法在小物体检测上的提升是比较明显的，另外作者强调这些实验并没有采用其他的提升方法（比如增加数据集，迭代回归，hard negative mining），因此能达到这样的结果实属不易。DSSD：Deconvolutional Single Shot Detector一个SSD上移植FPN的典型例子，作者主要有一下改动：将FPN的Upsampling变成deconv复杂了高层表述分支（分类，回归）网络的复杂度R-SSD：Enhancement of SSD by concatenating feature maps for object detection本文着重讨论了不同特征图之间的融合对SSD的影响（水论文三大法宝），这篇论文创新点不是太多，就不说了DSOD： Learning Deeply Supervised Object Detectors from Scratch这篇文章的亮点：提出来了不需要预训练的网络模型DSOD实际上是densenet思想+SSD，只不过并不是在base model中采用densenet，而是密集连接提取default dox的层，这样有一个好处：通过更少的连接路径，loss能够更直接的监督前面基础层的优化，这实际上是DSOD能够直接训练也能取得很好效果的最主要原因，另外，SSD和Faster RCNN直接训练无法取得很好的效果果然还是因为网络太深（Loss监督不到）或者网络太复杂。Dense Prediction Structure 也是参考的densenetstem能保留更多的信息，好吧，这也行，但是对效果还是有提升的。YOLO 9000：Better, Faster, Stronger很喜欢这个作者的论文风格，要是大家都这么写也会少一点套路，多一点真诚。。。。文章针对yolo做了较多的实验和改进，简单粗暴的列出每项改进提升的map。这个建议详细的看论文。下面列举几个亮点：如何用结合分类的数据集训练检测的网络来获得更好的鲁棒性将全连接层改为卷积层并结合了细粒度信息（passthrough layer）Multi-Scale TraningDimension Clustersdarknet-19更少的参数Direct locaion prediction对offset进行约束R-FCN：Object Detection via Region-based Fully Convolutional Networks本文提出了一个问题，base CNN网络是为分类而设计的（pooling 实际上是反应了位置的不变性，我一张人脸图片只要存在鼻子，两只眼睛，分类网络就认为它是人脸，这也就是Geoffrey Hinton 在Capsule中吐槽卷积的缺陷），而目标检测则要求对目标的平移做出准确响应。Faster RCNN是通过ROI pooling让其网络学习位置可变得能力的，再次之前的base CNN还是分类的结构，之前讲过R-FCN将Faster RCNN ROI提取出来的部分的卷积计算共享了，那共享的分类和回归功能的卷积一定在划分ROI之前，那么问题来了，如何设计让卷积对位置敏感？主要贡献：将用来回归位置和类别的卷积前置共享计算，提高了速度。巧妙设计score map（feature map）的意义（感觉设计思想和yolo v1最后的全连接层一样），让其何以获得位置信息，之后在经过ROI pooling和vote得到结果为啥能work？实际上rfcn的feature map设计表达目标检测问题的方式更加抽象（ROI pool前的feature map中每一个cell的channel代表定义都很明确），loss在监督该层时更能通过论文中关于ROI pool和vote设计，在不同的channel上获得高的响应，这种设计方式可能更好优化（这个是需要大量的实验得出的结论），至于前面的resnet-base 自然是抽象监督，我们本身是无法理解的，只是作为fintuning。实际上fpn的loss监督也是非常浅和明确的，感觉这种可以理解的优化模块设计比较能work。Focal Loss: Focal Loss for Dense Object Detection这篇文章实际上提供了另外一个角度，之前一直认为Single stage detector结果不够好的原因是使用的feature不够准确（使用一个位置上的feature），所以需要Roi Pooling这样的feature aggregation办法得到更准确的表示。但是这篇文章基本否认了这个观点，提出Single stage detector不好的原因完全在于：极度不平衡的正负样本比例: anchor近似于sliding window的方式会使正负样本接近1000：1，而且绝大部分负样本都是easy example，这就导致下面一个问题：gradient被easy example dominant的问题：往往这些easy example虽然loss很低，但由于数量众多，对于loss依旧有很大贡献，从而导致收敛到不够好的一个结果。所以作者的解决方案也很直接：直接按照loss decay掉那些easy example的权重，这样使训练更加bias到更有意义的样本中去。很直接地，如下图所示:实验中作者比较了已有的各种样本选择方式：按照class比例加权重：最常用处理类别不平衡问题的方式OHEM：只保留loss最高的那些样本，完全忽略掉简单样本OHEM+按class比例sample：在前者基础上，再保证正负样本的比例（1：3）Focal loss各种吊打这三种方式，coco上AP的提升都在3个点左右，非常显著。值得注意的是，3的结果比2要更差，其实这也表明，其实正负样本不平衡不是最核心的因素，而是由这个因素导出的easy example dominant的问题。RetinaNet 结构如下实际上就是SSD+FPN的改进版

269 评论 12小时前发布

蔡一诺1989

作为计算机视觉三大任务（图像分类、目标检测、图像分割）之一，目标检测任务在于从图像中定位并分类感兴趣的物体。传统视觉方案涉及霍夫变换、滑窗、特征提取、边界检测、模板匹配、哈尔特征、DPM、BoW、传统机器学习（如随机森林、AdaBoost）等技巧或方法。在卷积神经网络的加持下，目标检测任务在近些年里有了长足的发展。其应用十分广泛，比如在自动驾驶领域，目标检测用于无人车检测其他车辆、行人或者交通标志牌等物体。

目标检测的常用框架可以分为两类，一类是 two-stage/two-shot 的方法，其特点是将兴趣区域检测和分类分开进行，比较有代表性的是R-CNN，Fast R-CNN，Faster R-CNN；另一类是 one-stage/one-shot 的方法，用一个网络同时进行兴趣区域检测和分类，以YOLO（v1,v2,v3）和SSD为代表。

Two-stage的方式面世比较早，由于需要将兴趣区域检测和分类分开进行，虽然精度比较高，但实时性比较差，不适合自动驾驶无人车辆感知等应用场景。因而此次我们主要介绍一下SSD和YOLO系列框架。

SSD与2016年由W. Liu et al.在 SSD: Single Shot MultiBox Detector 一文中提出。虽然比同年提出的YOLO（v1）稍晚，但是运行速度更快，同时更加精确。

SSD的框架在一个基础CNN网络（作者使用VGG-16，但是也可以换成其他网络）之上，添加了一些额外的结构，从而使网络具有以下特性：

用多尺度特征图进行检测作者在VGG-16后面添加了一些特征层，这些层的尺寸逐渐减小，允许我们在不同的尺度下进行预测。越是深层小的特征图，用来预测越大的物体。

用卷积网络进行预测不同于YOLO的全连接层，对每个用于预测的通道特征图，SSD的分类器全都使用了卷积进行预测，其中是每个单元放置的先验框的数量，是预测的类别数。

设置先验框对于每一个特征图上的单元格，我们都放置一系列先验框。随后对每一个特征图上的单元格对应的每一个先验框，我们预测先验框的维偏移量和每一类的置信度。例如，对于一个的特征图，若每一个特征图对应个先验框，同时需要预测的类别有类，那输出的大小为。（具体体现在训练过程中）其中，若用表示先验框的中心位置和宽高，表示预测框的中心位置和宽高，则实际预测的维偏移量是分别是：

下图是SSD的一个框架，首先是一个VGG-16卷积前5层，随后级联了一系列卷积层，其中有6层分别通过了卷积（或者最后一层的平均池化）用于预测，得到了一个的输出，随后通过极大值抑制（NMS）获得最终的结果。

图中网络用于检测的特征图有个，大小依次为，，，，，；这些特征图每个单元所对应的预置先验框分别有 , , , , , 个，所以网络共预测了个边界框，（进行极大值抑制前）输出的维度为。

未完待续

参考： chenxp2311的CSDN博客：论文阅读：SSD: Single Shot MultiBox Detector 小小将的知乎专栏：目标检测|SSD原理与实现 littleYii的CSDN博客：目标检测论文阅读：YOLOv1-YOLOv3（一）

作者的其他相关文章：图像分割：全卷积神经网络（FCN）详解 PointNet：基于深度学习的3D点云分类和分割模型详解基于视觉的机器人室内定位

147 评论 12小时前发布

深度学习目标检测ssd论文解读

3个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊投稿

向你推荐

推荐问答

3个回答默认排序

默认排序

按时间排序