数据质量分析

    xiaoxiao2023-09-28  162

    数据质量分析是数据探索阶段重要一环, 数据不是完美的, 往往存在缺少数据、异常数据,不一致数据、噪声数据等。没有可信的数据,再好的模型性能都不太可能好, “垃圾进,垃圾出”。

    数据分析方面的分析, 主要包括以下几个方面

    缺失值异常值不一致的数据错误数据

    一、统计数据情况

    二、通过箱型图观察数据的异常情况

    import pandas as pd import matplotlib.pyplot as plt def test1(): df = pd.read_csv("C:\\Users\\12285\\Desktop\\a.csv", header=0) print(df.count()) # 统计非空值 print(df.describe()) # 统计信息: 记录数,平均值,方差,最小值,分位数, 最大值 plt.figure() # 画箱型图 bp = df.boxplot(return_type='dict') # fliers 为异常值的标签 x = bp['fliers'][0].get_xdata() y = bp['fliers'][0].get_ydata() y.sort() # 用annotate添加注释 for i in range(len(x)): plt.annotate(y[i], xy = (x[i], y[i]), xytext = (x[i] + 0.1 - 0.8 / (y[i] - y[i - 1]), y[i])) plt.show() df.count() 计算空值 date 12 emc 12 fsn 12 dtype: int64 df.describe() 计算统计信息 fsn count 12.000000 mean 2153.333333 std 3908.253861 min 0.000000 25% 3.750000 50% 16.500000 75% 2239.000000 max 11608.000000

    最新回复(0)