【摘要】
本次调研包括250多项关键技术,涵盖了通用目标检测研究的许多方面:前沿的检测框架和基本子问题,包括目标特征表示,候选区域生成,上下文信息建模和训练策略等;评价问题,特别是benchmark数据集,评价指标和最先进的方法。最后,讨论了未来研究的方向。
object feature representation, object proposal generation, context information modeling and training strategies; evaluation issues, specifically benchmark datasets, evaluation metrics, and state of the art performance.
【时间】2018年9月
【参考链接】
1.https://arxiv.org/abs/1809.02165
2.GitHub - hoya012/deep_learning_object_detection: A paper list of object detection using deep learning.
通用对象检测相关的识别问题。 (a)图像级别对象分类,(b)边界框级别通用对象检测,(c)像素级语义分割,(d)实例语义分割。
图像分类 分类和定位 目标物体检测 语义分割 进入像素级 实例分割目标检测可以分为两种类型 :特定实例检测和特定类别检测。 前者比如唐纳德·特朗普的脸、五角大楼建筑,而后者如人、车、自行车和狗。
一个好的检测器要做到定位准确、分类准确还要效率高
通常采用的策略包括级联、共享特性计算和减少每个窗口的计算。
目标检测的框架可以分成2类:
Two stage detection framework:含region proposal,先获取ROI,然后对ROI进行识别和回归bounding box,以RCNN系列方法为代表。RCNN ,SPPNet, Fast RCNN , Faster RCNN,RFCN(Region based Fully Convolutional Network),Mask RCNN
One stage detection framework:不含region proposal,将全图grid化,对每个grid进行识别和回归,以YOLO系列方法为代表。直接从全图上预测类概率和边界框偏移的架构,不涉及候选区域生成或后分类。 YOLO,SSD
multiscale object detection,可分成3类:
Detecting with combined features of multiple CNN layers,使用多个CNN层的组合特征进行检测
Hypercolumns,HyperNet,ION
Detecting at multiple CNN layers,在多个CNN层上直接检测
FCN通过平均分割概率结合多个层的从粗糙到精细的预测。SSD,MSCNN,RBFNet,DSOD结合多个特征图的预测来处理各种大小的目标。
Combinations of the above two methods
SharpMask,DSSD(Deconvolutional Single Shot Detector),FPN(Feature Pyramid Network),TDM(Top Down Modulation),RON(Reverse connection with Objectness prior Network),ZIP,STDN(Scale Transfer Detection Network),RefineDet,StairNet
上下文信息可以分为3类:
Semantic context: The likelihood of an object to be found in some scenes but not in others;
语义上下文
Spatial context: The likelihood of finding an object in some position and not others with respect to other objects in the scene;
空间上下文
Scale context: Objects have a limited set of sizes relative to other objects in the scene.
尺度上下文
候选检测方法,基于边界框的和基于对象分割的。
Two stage detection framework需要生成ROI。
生成ROI的方法,可以分为Bounding Box Proposal Methods和Object Segment Proposal Methods,前者回归出Bounding Box来描述ROI,后者通过分割得到像素集合来描述ROI。
backbone网络,检测框架,数据集规模是影响效果的3个最重要的因素。