目标检测经典论文——训练过程总结

xiaoxiao2022-07-02 243

最近又一次复习下经典论文，在此记录下前人的论文上的训练过程。

YOLO v1

我们在ImageNet 1000类数据集上预训练我们的卷积层。预训练时我们使用图3中的前20为向量、一个平均池化层、一个全连接层。我们训练这个网络一周时间，在ImageNet 2012数据集中获得了88%准确率排名位于前5名，与 Caffe上训练的模型中的GoogLeNet模型相当。我们使用 Darknet框架进行所有的训练和预测。　　然后我们转化网络执行检测。Ren等人提出在预训练模型中加入卷积层和全连接层可以提高性能[29]。根据他们的想法，我们添加了随机初始化参数的4个卷积层和2个全连接层。检测任务需要细粒度的视觉信息，所以我们将网络输入的分辨率从224×224增加到448×448【这里存在着不匹配的问题，yolo v2改进了】。

　　我们在PASCAL VOC 2007和2012的训练和验证数据集上对网络进行了大约135个epochs的训练。当在VOC 2012上测试的时候，我们也包含了VOC 2007的测试数据用来训练。训练中我们的batch size为64，momentum为0.9，decay为0.0005。　　我们的learning rate（学习率）计划如下：在第一个epoch中我们将learning rate慢慢的从0.001提高到0.01【就是warm up】，如果我们从较高的学习率开始训练，由于不稳定的梯度会导致网络发散。我们以0.01训练75个epoch，再以0.001训练30个epoch，以0.0001训练30个epoch。　　为了避免过拟合我们使用了dropout （神经元随机失效）层和数据增强的办法。在第一个连接层之后，速率为0.5的dropout层防止了层之间的联合性（dropout强迫一个神经单元，和随机挑选出来的其他神经单元共同工作，达到好的效果。消除减弱了神经元节点间的联合适应性，增强了泛化能力。）[18]。对于数据增强，我们引入达到原始图像大小20%的随机缩放和平移。我们还在HSV色彩空间中随机调整图像的曝光和饱和度达1.5倍。

Inception v2

我们在TensorFlow[1]分布式机器学习系统上使用随机梯度方法训练了我们的网络，使用了5050个副本，每个副本在一个NVidia Kepler GPU上运行，batch size为32，100 个epoch。我们之前的实验使用动量方法[19]，衰减值为0.90.，而我们最好的模型是用RMSProp [21]实现的，衰减值为0.90.，ϵ=1.0。我们使用0.045的学习率，每两个epoch以0.94的指数速率衰减。此外，阈值为2.0的梯度裁剪[14]被发现对于稳定训练是有用的。使用随时间计算的运行参数的平均值来执行模型评估。

最新回复(0)