写在前面的话:文章内容来源于但不限于网络、书籍、个人心得体会等,意在总结和方便各位同行快速参考,共同学习进步,记录自己的问题。错误在所难免,有请各位批评斧正。如有侵权,烦请第一时间通知,我会立即删除相关内容,万分感谢!
基于候选区域的目标检测:
区域提名:通过Selective Search从原始图片提取2000个左右区域候选框;
区域归一化:把所有侯选框缩放成固定大小(227×227)Warp;
通过CNN网络提取特征(在特征层的基础上添加两个全连接层);
使用SVM结合NMS(非极大值抑制)获得区域边框(BBox),最后用DPM中类似的线性回归方法精修(Refine)边框位置。
R-CNN缺点:
虽然R-CNN在ILSVRC 2013数据集上的mAP由Overfeat的24.3%提升到了31.4%,第一次有了质的改变。但R-CNN有很多缺点: 重复计算:R-CNN虽然不再是穷举,但依然有两千个左右的候选框,这些候选框都需要进行CNN操作,计算量依然很大,其中有不少其实是重复计算;
SVM模型:而且还是线性模型,在标注数据不缺的时候显然不是最好的选择;
训练测试分为多步:区域提名、特征提取、分类、回归都是断开的训练的过程,中间数据还需要单独保存;训练的空间和时间代价很高
GPU上处理一张图片需要13秒,CPU上则需要53秒。