怎么做数据的EDA分析?

    xiaoxiao2025-06-13  19

    1.什么是EDA分析?

    探索性数据分析 (Exploratory Data Analysis,简称EDA) 我的理解是,所谓“探索”,就是自己不受规则约束、用各种方法去找数据的特点、规律。

    2.怎么去实现EDA分析?

    首先要敢于假设,不设限。拿到一堆数据后,多少会有点猜想,那么就可以去大胆尝试和验证;

    怎么验证猜想乃至挖掘出更多关系与规律呢?要多做图,通过将数据可视化来直观浅显地展示其中的数据关联。

    3.具体要做哪些图?

    单变量分析 基本统计量(中位数、四分位数、偏度、峰度等等)  偏度、峰度:数据的大致分布情况,功能上与直方图类似,其虽然可量化,但不如直方图直观 直方图  - 对称?  - 分散?  - 异常值?  - 有间隙? 箱线图  - 异常值?  - 对称?  - 比较几批数据的形状 正态性检验  - 图示法 - 直方图钟型?  - 箱线图  - QQ图  - 非参数检验方法

    两个变量的分析 线性相关?  秩相关?  关联性如何?  注意:  先绘制散点图  要求两变量来自正态总体  出现异常值慎用

    报表 在进行了单变量与多变量的分析之后,应该得到一个展示成果性的报表。制作报表时应该思考以下的信息:  - 数据缺失?  - 有异常值?  - 特征有冗余?  - 分布情况?  - 样本是否重复?  - 样本是否平衡? - 是否需要抽样?  - 是否需要降维?  - 能否构造更有价值的特征?  - 连续特征是否需要离散化?  - 是否需要对变量进行重新计算? ---------------------  作者:JasonBianzx  来源:  原文:https://blog.csdn.net/JasonBianZhang/article/details/78471846   

     

    GitHub上可供参考的一个很好的例子:

    https://github.com/wzy6642/Machine-Learning-Case-Studies

     

     

    最新回复(0)