NLP系列 7. 卷积神经网络

    xiaoxiao2022-07-13  164

    卷积运算

    定义:

    卷积是两个变量在某范围内相乘后求和的结果。 称 ( f ∗ g ) ( x ) (f*g)(x) (fg)(x)为f,g的卷积。 连续的卷积定义为: ( f ∗ g ) ( n ) = ∫ − ∞ + ∞ f ( τ ) g ( n − τ ) (f*g)(n)=\int_{-\infty}^{+\infty}f(\tau)g(n-\tau) (fg)(n)=+f(τ)g(nτ) 离散的卷积定义为: ( f ∗ g ) ( n ) = ∑ r = − ∞ + ∞ f ( τ ) g ( n − τ ) (f*g)(n)=\sum_{r=-\infty}^{+\infty}f(\tau)g(n-\tau) (fg)(n)=r=+f(τ)g(nτ) 公式中 f ( x ) f(x) f(x)可以理解为原始数据矩阵,如原始图像等。 g ( x ) g(x) g(x)可以理解为作用点,结合起来就是卷积核。

    为什么要用卷积

    具体而言,卷积在图像领域可以用于图像平滑或者边缘强化。 卷积也可以通过三个重要的思想来帮助改进机器学习系统:稀疏权重、参数共享、等变表示。

    稀疏权重

    传统的矩阵运算,如果有 m 个输入和 n 个输出,那么需要 mn 个参数。而采用卷积运算后,由于卷积核的大小一般都不大,如为k,那么此时的输出需要 kn个参数就够了。下图可以解释这个: 除了权重稀疏了之外,从另一个角度看,在卷积网络中,尽管直接连接都是很稀疏的,但处在更深层次的单元可以间接地连接到全部或者大部分输入图像。

    参数共享

    参数共享是指在一个模型的多个函数中使用相同的参数。在传统的神经网络中,当计算一层的输出时,权重矩阵的元素只使用一次。而卷积运算的参数共享是说核的每一个元素都作用在输入的每一个位置上(说白了就是一个核扫遍整个输入,而不是动一下一个核)。卷积运算中的参数共享保证了我们只需要学习一个参数集合,而不是对于每一个位置都需要学习一个单独的参数集合。

    等变表示

    对于卷积,参数共享的特殊形式使得神经网络层具有对平移等变的性质。如果一个函数满足输入改变,输出也以同样的形式改变这一性质,我们就说它是等变的。特别低,如果函数 f(x) 与 g(x) 满足 f(g(x)) = g(f(x)) ,我们就说 f(x) 对与变换 g 具有等变性。 对于卷积来说,如果零 g 是输入的任意平移函数,那么卷积函数对于 g 具有等变性。也就是说,通过函数g 把输入I平移后进行卷积得到的结果,与先对I进行卷积再进行平移得到的结果是一样的。

    代码运算

    基于Tensorflow的conv2d。 tf.nn.conv2d参数说明如下:

    conv2d( input, filter, strides, padding, use_cudnn_on_gpu=True, data_format='NHWC', name=None ) 参数名必选类型说明input是tensor是一个 4 维的 tensor,即 [ batch, in_height, in_width, in_channels ](若 input 是图像,[ 训练时一个 batch 的图片数量, 图片高度, 图片宽度, 图像通道数 ])filter是tensor是一个 4 维的 tensor,即 [ filter_height, filter_width, in_channels, out_channels ](若 input 是图像,[ 卷积核的高度,卷积核的宽度,图像通道数,卷积核个数 ]),filter 的 in_channels 必须和 input 的 in_channels 相等strides是列表长度为 4 的 list,卷积时候在 input 上每一维的步长,一般 strides[0] = strides[3] = 1padding是string只能为 " VALID “,” SAME " 中之一,这个值决定了不同的卷积方式。VALID 丢弃方式;SAME:补全方式use_cudnn_on_gpu否bool是否使用 cudnn 加速,默认为 truedata_format否string只能是 " NHWC ", " NCHW ",默认 " NHWC "name否string运算名称

    示例代码:

    import tensorflow as tf a = tf.constant([1,1,1,0,0,0,1,1,1,0,0,0,1,1,1,0,0,1,1,0,0,1,1,0,0],dtype=tf.float32,shape=[1,5,5,1]) b = tf.constant([1,0,1,0,1,0,1,0,1],dtype=tf.float32,shape=[3,3,1,1]) c = tf.nn.conv2d(a,b,strides=[1, 2, 2, 1],padding='VALID') d = tf.nn.conv2d(a,b,strides=[1, 2, 2, 1],padding='SAME') with tf.Session() as sess: print ("c shape:") print (c.shape) print ("c value:") print (sess.run(c)) print ("d shape:") print (d.shape) print ("d value:") print (sess.run(d))

    结果如下:

    池化

    定义:

    我们之所以使用卷积后的特征,是因为图像具有“静态型”的属性,也就意味着在一个图像区域的特征极有可能在另一个区域同样适用。所以,当我们描述一个大的图像的时候就可以对不同位置的特征进行聚合统计,利用相邻输出的总体特征代替网络在该位置的输出(例如:可以计算图像一个区域上的某个特定特征的平均值 or 最大值)。 这种统计方式不仅可以降低纬度,还不容易过拟合。这种聚合统计的操作就称之为池化。常用的有最大池化和平均池化。 最大池化即取局部接受域中值最大的点。 平均池化是取局部接受域中值的平均。

    为什么要用池化

    平移不变形

    经过池化函数后的大多数输出并不会发生改变,具有平移不变性。 例如图片中右上角有一只猫,如果把猫移到左下角,我们还是认为图像中有一只猫,在进行特征提取时应当考虑平移不变形。

    降采样

    池化用最大值或者平均值代替局部接受域中的所有值,因而是对局部接受域的整体的反馈,所以可以用于降采样。

    代码运算

    tf.nn.max_pool 参数如下:

    max_pool( value, ksize, strides, padding, data_format='NHWC', name=None ) 参数名必选类型说明value是tensor4 维的张量,即 [ batch, height, width, channels ],数据类型为 tf.float32ksize是列表池化窗口的大小,长度为 4 的 list,一般是 [1, height, width, 1],因为不在 batch 和 channels 上做池化,所以第一个和最后一个维度为 1strides是列表池化窗口在每一个维度上的步长,一般 strides[0] = strides[3] = 1padding是string只能为 " VALID “,” SAME " 中之一,这个值决定了不同的池化方式。VALID 丢弃方式;SAME:补全方式data_format否string只能是 " NHWC ", " NCHW “,默认” NHWC "name否string运算名称

    示例代码:

    import tensorflow as tf a = tf.constant([1,3,2,1,2,9,1,1,1,3,2,3,5,6,1,2],dtype=tf.float32,shape=[1,4,4,1]) b = tf.nn.max_pool(a,ksize=[1, 2, 2, 1],strides=[1, 2, 2, 1],padding='VALID') c = tf.nn.max_pool(a,ksize=[1, 2, 2, 1],strides=[1, 2, 2, 1],padding='SAME') with tf.Session() as sess: print ("b shape:") print (b.shape) print ("b value:") print (sess.run(b)) print ("c shape:") print (c.shape) print ("c value:") print (sess.run(c))

    Text-CNN

    原理

    网络结构如下图所示,示意图中第一层输入为7*5的词向量矩阵,其中词向量维度为5,句子长度为7,然后第二层使用了3组宽度分别为2、3、4的卷积核,图中每种宽度的卷积核使用了两个。 其中每个卷积核在整个句子长度上滑动,得到n个激活值,图中卷积核滑动的过程中没有使用padding,因此宽度为4的卷积核在长度为7的句子上滑动得到4个特征值。然后出场的就是卷积的好基友全局池化了,每一个卷积核输出的特征值列向量通过在整个句子长度上取最大值得到了6个特征值组成的feature map来供后级分类器作为分类的依据。 卷积的过程是计算与某些关键词的相似度,然后通过max pooling层来得出模型关注那些关键词是否在整个输入文本中出现,以及最相似的关键词与卷积核的相似度最大有多大。

    利用Text-CNN模型来进行文本分类。

    利用TextCNN进行IMDB文本分类 参考: https://github.com/jiangxinyang227/textClassifier/tree/master/textCNN https://www.cnblogs.com/jiangxinyang/p/10207482.html

    参考链接

    https://zhuanlan.zhihu.com/p/30994790 https://www.zhihu.com/question/22298352 http://pelhans.com/2019/04/19/deepdive_tensorflow-note8/ http://www.52nlp.cn/tag/textcnn

    最新回复(0)