文献阅读 - A Discriminative Feature Learning Approach for Deep Face Recognition

    xiaoxiao2022-07-04  189

    A Discriminative Feature Learning Approach for Deep Face Recognition


    Y. Wen, K. Zhang, Z. Li, & Y. Qiao, A Discriminative Feature Learning Approach for Deep Face Recognition, ECCV, 2016


    摘要

    (1)中心损失(center loss):学习各个类别的深度特征的中心,同时对类内深度特征空间的尺度加以惩罚(simultaneously learns a center for deep features of each class and penalizes the distances between the deep features and their corresponding class centers) (2)中心损失可训练且易于优化 (3)归一化指数损失、中心损失联合监督(joint supervision of softmax loss and center loss),使得类间分布分散、类内分布紧密(inter-class dispersion and intra-class compactness)

    1 引言

    对于面部识别任务,提取的深度特征不仅可分(separable),还要可鉴别(discriminative)、泛化能力强(generalized enough)。 可鉴别意味着:减小类内变化并增大类间差异(compact intra-class variations and separable inter-class differences) (1)中心损失函数能提高深度特征的判别能力。 (2)各类深度特征中心:在训练过程中,更新中心位置,使深层特征与相应类别中心的间距最小。 (3)归一化指数损失、中心损失联合监督,通过超参数平衡。 (4)归一化指数损失使不同类别的深层特性分离;中心损失使相同类别的深层特性靠近其类别中心。

    2 相关工作

    3 本文方法

    3.1 简单示例

    MNIST:2维深度特征

    归一化指数(softmax)损失:

    L S = − ∑ i = 1 m log ⁡ e w y i T x i + b y i ∑ j = 1 n e w j T x i + b j \mathcal{L}_S = - \sum_{i = 1}^{m} \log \frac {e^{\mathbf{w}^{\mathrm{T}}_{y_i} \mathbf{x}_i + b_{y_i}}} {\sum_{j = 1}^{n} e^{\mathbf{w}^{\mathrm{T}}_{j} \mathbf{x}_i + b_{j}}} LS=i=1mlogj=1newjTxi+bjewyiTxi+byi

    其中, x i ∈ R d \mathbf{x}_i \in \mathbb{R}^d xiRd表示样本 i i i的深度特征, y i y_i yi表示样本 i i i的类别, d d d表示特征的维度, w j ∈ R d \mathbf{w}_{j} \in \mathbb{R}^d wjRd表示输出全连接层权值矩阵 W ∈ R d × n \mathbf{W} \in \mathbb{R}^{d \times n} WRd×n的第 j j j列, b ∈ R n \mathbf{b} \in \mathbb{R}^{n} bRn表示偏置项。

    3.2 中心损失(center loss)

    提升深度特征(deeply learned features)鉴别能力(discriminative power)的关键在于:保证不同类别特征可分的前提下,最小化类内差异。中心损失(center loss)定义为:

    L C = 1 2 ∑ i = 1 m ∥ x i − c y i ∥ 2 2 \mathcal{L}_C = \frac{1}{2} \sum_{i = 1}^{m} {\left\| \mathbf{x}_i - \mathbf{c}_{y_i} \right\|}_{2}^{2} LC=21i=1mxicyi22

    其中, c y i ∈ R d \mathbf{c}_{y_i} \in \mathbb{R}^d cyiRd表示类别 y i y_i yi深度特征中心,该方程能够最小化类内差异。训练时, c y i \mathbf{c}_{y_i} cyi随深度特征的变化而变化,其学习率为 α ∈ [ 0 , 1 ] \alpha \in [0, 1] α[0,1]

    L C x i = x i − c y i \frac{\mathcal{L}_C}{\mathbf{x}_i} = \mathbf{x}_i - \mathbf{c}_{y_i} xiLC=xicyi

    Δ c j = ∑ i = 1 m δ ( y i = j ) ( c j − x i ) 1 + ∑ i = 1 m δ ( y i = j ) \Delta \mathbf{c}_{j} = \frac{\sum_{i = 1}^{m} \delta(y_i = j)(\mathbf{c}_{j} - \mathbf{x}_i)} {1 + \sum_{i = 1}^{m} \delta(y_i = j)} Δcj=1+i=1mδ(yi=j)i=1mδ(yi=j)(cjxi)

    其中,

    δ ( x ) = { 1 , x  is true 0 , x  is false \delta(x) = \begin{cases} 1, & x \ \text{is true} \\ 0, & x \ \text{is false} \\ \end{cases} δ(x)={1,0,x is truex is false

    归一化指数损失、中心损失联合监督损失函数(joint supervision of softmax loss and center loss)为:

    L = L S + λ L C = − ∑ i = 1 m log ⁡ e w y i T x i + b y i ∑ j = 1 n e w j T x i + b j + λ 2 ∑ i = 1 m ∥ x i − c y i ∥ \begin{aligned} \mathcal{L} = & \mathcal{L}_S + \lambda \mathcal{L}_C \\ = & - \sum_{i = 1}^{m} \log \frac{e^{\mathbf{w}^{\mathrm{T}}_{y_i} \mathbf{x}_i + b_{y_i}}}{\sum_{j = 1}^{n} e^{\mathbf{w}^{\mathrm{T}}_{j} \mathbf{x}_i + b_{j}}} + \frac{\lambda}{2} \sum_{i = 1}^{m} \left\| \mathbf{x}_i - \mathbf{c}_{y_i} \right\| \end{aligned} L==LS+λLCi=1mlogj=1newjTxi+bjewyiTxi+byi+2λi=1mxicyi

    超参数 λ \lambda λ用于平衡归一化指数损失和中心损失。

    判别特征学习算法

    3.3 讨论

    联合监督的必要性(the necessity of joint supervision) 归一化指数损失:增大类间距离;中心损失:减小类内距离(intra-class variations)

    与反差损失、三元组损失比较(compared to contrastive loss and triplet loss) 反差损失、三元组损失在构造样本对、样本三元组时,存在数据膨胀问题(dramatic data expansion);而联合监督损失无需额外构造数据;中心损失直接以类内紧致为学习目标。

    4 实验

    4.1 实施细节

    预处理(preprocessing) 面部检测、5点关键点定位(landmarks)、5点仿射(similarity transformation)、样本正规化(normalized, ( p ( x , y ) − 127.5 ) / 255 (p(x, y) - 127.5) / 255 (p(x,y)127.5)/255)、RGB

    训练数据(training data) 合并CASIA-WebFace、CACD2000、Celebrity+数据集,并剔除出现在测试集中的用户,共包含17,189位用户和70万张面部图像。 数据增强:水平翻转。

    CNN网络结构 caffe 模型A:归一化指数损失;模型B:归一化指数损失、反差损失;模型C:归一化指数损失、中心损失。 批尺寸:256;Titan X:2 GPUs; 模型A、C:28K次迭代,14小时;模型B:42K次迭代,22小时。

    测度 深度特征为全连接层输出、PCA、余弦相似度、最近邻(nearest neighbor)、门限比较(threshold comparison)

    4.2 参数 λ \lambda λ α \alpha α

    λ \lambda λ:控制类内变异(intra-class variations) α \alpha α:类中心学习率(learning rate of center c \mathbf{c} c

    4.3 LFW、YTF

    模型C, λ = 0.003 \lambda = 0.003 λ=0.003 α = 0.5 \alpha = 0.5 α=0.5

    4.4 MegaFace

    MegaFace:评估面部识别算法在大量干扰条件(million scale of distractors)下的表现。

    面部识别(face identification) 计算给定用户面部图像与库中面部图像间的相似度;用累积匹配特性(Cumulative Match Characteristics ,CMC)曲线(“Top-K”)衡量。 (横轴似乎反了) “Top-1”

    面部认证(face verification) 验证给定的一对面部图像与是否为同一用户;计算真实接收速率(True Accept Rate,TAR)和虚假接收速率(False Accept Rate,FAR),绘制接收机的工作特性(Receiver Operating Characteristic,ROC)曲线。 FAR = 1e-6

    5 结论

    最新回复(0)