TASK 7 卷积神经网络

xiaoxiao2022-07-15 138

卷积神经网络

此为单个神经元

输入层

对于数据输入层，主要做的就是对数据进行预处理，其中包括：

去均值：把输入数据的各个维度中心化为0，如下图所示，目的是把样本的中心拉回坐标原点上去。归一化：幅度归一化到同样的范围，如下所示，即减少各个维度数据取值范围的差异带来的干扰，比如我们有两个维度的特征A和B，A的特征是0-10，B的特征是0-10000，如果直接使用这两个特征是会有问题的，好的做法是归一化，即A和B的范围都变到0-1PCA/白化：用PCA降维；白化是对数据各个特征轴上的幅度归一化去均值与归一化效果图：

去相关与白化效果图：

2计算层

深度步长填充值

为了窗口能将所有的数值遍历一遍，这是填充值的作用卷积的计算卷积的计算（灰色的为填充值）下图展现了卷积计算的过程：

参数共享机制

卷积层中每个神经元连接数据窗的权重是固定的，每个神经元只关注一个特征。神经元就是图像处理中的滤波器，例如边缘检测专用的Sobel滤波器，即卷积层每个滤波器都会有自己所关注一个图像的特征，比如垂直边缘、水平边缘、颜色、纹理等等，所有神经元加起来就是整张图像的特征提取集合。需要估算的权重个数减少一组固定的权重和不同窗口内数据做内积：卷积

激励层

把卷积层输出结果做非线性映射。

cNN采用的激励函数一般为ReLU（The Rectified Linear Unit/修正线单元），特点是收敛快，求梯度简单，但较为脆弱，图如下：

池化层

池化层夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合。

特征不变性，比如一张狗的照片，缩小了，也能认出来这是一条狗特征降维，去除冗余信息，提取重要特征防止过拟合池化层的方法有Max pooling 和average pooling，实际运用较多的为Max pooling。

TextCNN

相关论文：https://arxiv.org/abs/1408.5882 网络结构： textcNN详细原理如下：

Embedding：第一层是图中最左边的7乘5的句子矩阵，每行是词向量，维度=5，这个可以类比为图像中的原始像素点。 Convolution：然后经过 kernel_sizes=(2,3,4) 的一维卷积层，每个kernel_size 有两个输出 channel。 MaxPolling：第三层是一个1-max pooling层，这样不同长度句子经过pooling层之后都能变成定长的表示。 FullConnection and Softmax：最后接一层全连接的 softmax 层，输出每个类别的概率。通道文本的输入的channel通常是不同方式的embedding方式（比如 word2vec或Glove），实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。具体实现代码：

import logging from keras import Input from keras.layers import Conv1D, MaxPool1D, Dense, Flatten, concatenate, Embedding from keras.models import Model from keras.utils import plot_model def textcnn(max_sequence_length, max_token_num, embedding_dim, output_dim, model_img_path=None, embedding_matrix=None): """ TextCNN: 1. embedding layers, 2.convolution layer, 3.max-pooling, 4.softmax layer. """ x_input = Input(shape=(max_sequence_length,)) logging.info("x_input.shape: %s" % str(x_input.shape)) # (?, 60) if embedding_matrix is None: x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length)(x_input) else: x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length, weights=[embedding_matrix], trainable=True)(x_input) logging.info("x_emb.shape: %s" % str(x_emb.shape)) # (?, 60, 300) pool_output = [] kernel_sizes = [2, 3, 4] for kernel_size in kernel_sizes: c = Conv1D(filters=2, kernel_size=kernel_size, strides=1)(x_emb) p = MaxPool1D(pool_size=int(c.shape[1]))(c) pool_output.append(p) logging.info("kernel_size: %s \t c.shape: %s \t p.shape: %s" % (kernel_size, str(c.shape), str(p.shape))) pool_output = concatenate([p for p in pool_output]) logging.info("pool_output.shape: %s" % str(pool_output.shape)) # (?, 1, 6) x_flatten = Flatten()(pool_output) # (?, 6) y = Dense(output_dim, activation='softmax')(x_flatten) # (?, 2) logging.info("y.shape: %s \n" % str(y.shape)) model = Model([x_input], outputs=[y]) if model_img_path: plot_model(model, to_file=model_img_path, show_shapes=True, show_layer_names=False) model.summary() return model

特征：这里用的是词向量表示方式

数据量较大：可以直接随机初始化embeddings，然后基于语料通过训练模型网络来对embeddings进行更新和学习。数据量较小：可以利用外部语料来预训练(pre-train)词向量，然后输入到Embedding层，用预训练的词向量矩阵初始化embeddings。（通过设置weights=[embedding_matrix]）。静态(static)方式：训练过程中不再更新embeddings。实质上属于迁移学习，特别是在目标领域数据量比较小的情况下，采用静态的词向量效果也不错。（通过设置trainable=False）非静态(non-static)方式：在训练过程中对embeddings进行更新和微调(fine tune)，能加速收敛。（通过设置trainable=True）

参考链接：https://www.cnblogs.com/bymo/p/9675654.html

最新回复(0)