一、COCO数据集
http://cocodataset.org/
训练集和验证集数据整体概况最多标注全身的17个关键点,平均一幅图像2个人,最多有13个人
每个人体关键点个数的分布情况,其中11-15这个范围的人体是最多的,有接近70000人,6-10其次,超过40000人,后面依次为16-17,2-5,1.
K(BLOHKM) = (20000*13 +9*40000+4*70000+1*25000)/150000 = 6.2
关于图像复杂性的基准,两个方面:遮挡(不可见)和crowded(密集)
对于前一种类型遮挡,很难有针对性的办法去解决,最好的办法也就是使用更多的数据和更强的feature。但是对于后一种类型的遮挡,现在的pipeline其实并没有很好充分利用信息
二、MPII数据集
http://human-pose.mpi-inf.mpg.de/#download
全身16个关键点,人数:train有28821,test有11701,有409种人类活动
标注数据的格式:使用mat的struct格式,对于人体关键点检测有用的数据如下:
行人框:使用center和scale标注,人体尺度关于200像素高度。也就是除过了200
16个关键点坐标及其是否可见的信息
不相关的有:
头部包围框
图像活动分类
视频索引和帧信息
支持多人和单人模式,单人模式表示:已知行人框(center和scale),排除多人相互接近的情况
三、关于数据集的加载和预处理
可以参考微软的simplebaseline那篇论文以及最新的CVPR论文Deep High-Resolution Representation Learning for Human Pose Estimation的开源code,很好读的代码,pytorch写的,同时有coco和mpii的格式。
https://github.com/microsoft/human-pose-estimation.pytorch/tree/master/lib/dataset
https://github.com/leoxiaobin/deep-high-resolution-net.pytorch