[深度学习]经典网络结构(一)——LeNet5

xiaoxiao2022-07-12 204

#本文意为总结自己学习的网络模型，以留作笔记使用,如有错误，欢迎在下方评论

一、简介

Lenet是一个用来识别手写数字的最经典卷积神经网络，是早期卷积神经网络中最有代表性之一，其论文是CNN领域第一篇经典之作。

二、网络结构

LeNet-5网络是针对灰度图进行训练的,输入图像大小为32*32*1,不包含输入层的情况下共有7层(2conv,2pool,2fc,1output) Conv -- 通过卷积运算，可以使原信号特征增强，并且降低噪音 Subsampling --- 利用图像局部相关性的原理,对图像进行子抽样,可以减少数据处理量同时保留有用信息,降低网络训练参数及模型的过拟合程度Lenet的特点 (1)每个卷积层包含三个部分：卷积、池化和非线性激活函数 (2)使用卷积提取空间特征 (3)降采样（Subsample）的平均池化层（Average Pooling） (4)双曲正切（Tanh）或S型（Sigmoid）的激活函数 (5)MLP作为最后的分类器 (6)层与层之间的稀疏连接减少计算复杂度 (7)每层都包含可训练参数（连接权重）

三、各层结构详解

C1层 — conv层(Input 32 321 filter 6 k_size 5*5 stride 1 padding = "valid")

feature map = (32-5+1)/1 = 28 神经元数量：28*28*6 训练参数：(P) 156 = 5*5*6+6，其中每个卷积核大小是5*5，共有6个卷积核，最后要加上6个偏置项。连接数量：(C)122304 = 28*28*25*6+28*28*6，其中28*28*6为偏置项的连接数。

S2层 — Subsampling/avg-pooling层 (Input 28 286 k_size 2*2 stride 2 padding = "same")

feature map ：28/2 = 14 神经元数量：14*14*6 采样方式：4个输入相加,乘以一个可训练参数，再加上一个可训练偏置,结果通过sigmoid函数 [与我们目前熟知的平均池化不同] 训练参数：(P)12 = 2*6 ，其中每个2包含一个可训练参数和一个偏置值。连接数量：(C)5880 = 14*14*4*6+14*14*6，其中后半部分属于偏置项。

C3层 — conv层(Input 14 146 filter 16 k_size 5*5 stride 1 padding = "valid")

注意：此处经过不同的设计,提取不同平面的不同特征。设计方式： C3的前6个特征图以S2中3个相邻的特征图子集为输入。接下来6个特征图以S2中4个相邻特征图子集为输入。然后的3个以不相邻的4个特征图子集为输入。最后一个将S2中所有特征图为输入。详解见：https://cuijiahua.com/blog/2018/01/dl_3.html feature map ：(14-5+1)/1 = 10 神经元数量：10*10*16 训练参数：(P) 1516 = (5*5*3+1)*6+(5*5*4+1)*9+(5*5*6+1)*1 连接数：(C) 151600=25*3*100*6+25*4*100*9+25*6*100*1+16*10*10

S4层 — Subsampling/avg-pooling层 (Input 10 1016 k_size 2*2 stride 2 padding = "same")

feature map = 10/2 = 5 神经元数量：5*5*16 采样方式：4个输入相加,乘以一个可训练参数，再加上一个可训练偏置,结果通过sigmoid函数 [与我们目前熟知的平均池化不同] 训练参数：(P)32 =2*16，其中每个2包含一个可训练参数和一个偏置值。连接数量：(C)52000 = 5*5*4*16+5*5*16，其中后半部分属于偏置项。

C5层 — FC层 (output 120)

注：将S4的输出数据由三维拉直为一维，送入C5层（FC层）------> 输入数据格式[None,5*5*16] 参数个数：48120 = 120*5*5*16+120（有多少个神经元就有多少个偏置值）连接数：48120 = 120*5*5*16+120 因为是全连接层,所以参数个数和连接数的个数相同

F6层 — FC层 ( output 84)

本层84个神经元为什么是84？因为预先训练了径向基函数（RBF）网络的连接方式。可训练参数:84*(120+1)=10164

Output层 — RBF 层 ( output 10)

输出层由欧式径向基函数（Euclidean Radial Basis Function）单元组成，每类一个单元，每个有84个输入。算法实现：给定一个输式，损失函数应能使得F6的配置与RBF参数向量（即模式的期望分类）足够接近。可训练参数:10*(84+1)=850

四、使用注意

(1) Lenet要求手写体要尽量靠近中间，否则识别的准确率可能会偏低。网络将白色点设为-0.1，黑色点设为1.175，整体均值为0，方差为1. (2)LeNet模型在现在使用过程中好多地方进行了更改，比如激励函数换做ReLU，采用max pooling, 分类器Gaussian Connections改为了Softmax函数 (3)LeNet网络的第五层用conv层实现详细：输入：S4层的全部16个单元特征map（与s4全相连） filter 120 k_size 5*5 featureMap：（5-5+1）/1 = 1 训练参数/连接：120*（16*5*5+1）=48120 参考：https://blog.csdn.net/loveliuzz/article/details/79131131 https://cuijiahua.com/blog/2018/01/dl_3.html https://blog.csdn.net/hduxiejun/article/details/53571768 https://blog.csdn.net/chenyuping333/article/details/82177677

最新回复(0)