这个训练集有159837655个样本,负样本1.5亿,剩下的是正样本;比例约为15:1
时间信息有很多杂乱值,主要是2019年三月26到31日的信息,
train['operTime'] = pd.to_datetime(train['operTime']) conf = (train['operTime'].dt.year==2019)&(train['operTime'].dt.month==3) train[conf]['operTime'].dt.day.value_counts() ''' 30 28043936 31 28028243 29 27794906 26 25583297 27 25300266 28 24807386 '''媒体Id 的数量分布 对label的贡献度
前20的个数数量分布
对label的贡献度
广告id 3111 素材id4236 useid 30846341
发现ad的重复率为0.4左右,不太适合作为特征,或者建立含ID模型和不含ID模型 (后期会修改和更新) 而用户信息和其重合的个数很多,几乎没有新用户,那么用户id的使用就极为关键。