HrNet网络理解

    xiaoxiao2024-12-06  61

    其他部分翻译参考博客:https://blog.csdn.net/weixin_37993251/article/details/88043650 主要方法介绍: 3、APPREOACH 人体姿态估计(Human pose estimation)又称关键点检测(keypoint detection),其目的是检测K个关键点或部件的位置(如弯头、 手腕等)从大小为W×H×3的图像I中。最先进的方法将这个问题转化为估计K个大小为W‘×H’的热图,{H1,H2,…,Hk},其中每个热图Hk表示第k个关键点的位置置信度。 我们遵循广泛适用的pipeline[40, 72, 11]使用卷积网络预测human keypoint。

    Sequential multi-resolution subnetworks 作者说明现有的网络是顺序串联的high-to-low network,即从原始图像高分辨率到低分辨率(高层特征)是分辨率连续降低的。 Parallel multi-resolution subnetworks 作者提出用并联的网络,在不同路由间进行特征融合。

    Repeated multi-scale fusion 在做重复多尺度特征融合阶段,作者引入了exchange units(交换单元)策略,即在并联的子网络间,每个子网络还重复的接受额外的信息从其他的并行网络中。 交换单元由上采样upsamping 或者下采样downsampling构成。

    Heatmap estimation 我们仅从最后一个交换单元输出的高分辨率表示返回热图,这在经验上运行得很好。损失函数定义为均方误差,用于比较预测的热图(predicted heatmaps)和真实热图(groundtruth heatmpas)。真实热图是采用二维高斯分布,以每个关键点的真实位置为中心,标准差为1像素生成的。

    Network instantiation 根据ResNet的设计规则,将深度分布到每个阶段,将通道数分布到每个分辨率,实例化了关键点热图估计网络。 主干网络包含四个阶段有4个并行子网络,其对应的分辨率减半,但相应的通道数增倍,第一个阶段包含4个残差单元,每个单元与ResNet-50相同,由一个宽度为64的瓶颈构成,然后进行一个3×3的卷积,将feature map的宽度减小到C。第二、三、四阶段分别包含1、4、3个交换块。一个交换块包含4个残差单元,其中每个单元在每个分辨率中包含两个3×3的卷积***,1个交换单元跨分辨率。综上所述,共有8个交换单元*,即,进行了8(4*2)次多尺度融合。 试验中的网络,HRNet-W32和HRNet-W48,其中32和48分别代表高分辨率子网在最后三个阶段的宽度(C)。其他三个并行子网的宽度为64、128、256为HRNet-W32, 96、192、384为HRNet-W48。

    Training 我们将人体检测盒的高宽比扩展到固定的长宽比:高:宽= 4:3,然后从图像中裁剪出盒子,调整为固定的大小,256×192或384×288。 数据增强策略: random rotation([-45,45])、random scale([0:65; 1:35])、flipping、 Following [68], half body data augmentation is also involved。 其他参数参照论文,没什么可介绍的。 Testing 将人检测出来,再裁剪出来,送入关键点检测网络中 论文中的其他实验不在添加,论文中数据很明了。

    最新回复(0)