《R语言数据挖掘》----1.14 数据变换与离散化

    xiaoxiao2024-08-23  52

    本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.14节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

    1.14 数据变换与离散化

    根据前面的内容,我们可以知道总有一些数据格式最适合特定的数据挖掘算法。数据变换是一种将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入。

    1.14.1 数据变换

    数据变换程序将数据变换成可用于挖掘的恰当形式。它们如下所述:

    平滑:使用分箱、回归和聚类去除数据中的噪声。

    属性构造:根据给定的属性集,构造和添加新的属性。

    聚合:在汇总或者聚合中,对数据执行操作。

    标准化:这里,对属性数据进行缩放以便落入一个较小的范围。

    离散化:数值属性的原始值被区间标签或者概念标签所取代。

    对名义数据进行概念分层:这里,属性可以被推广到更高层次的概念中。

    1.14.2 标准化数据的变换方法

    为了避免依赖数据属性的测量单位的选择,数据需要标准化。这意味着将数据变换或者映射到一个较小的或者共同的范围内。在这个过程后,所有的属性获得相同的权重。有许多标准化的方法,我们看看其中的一些办法。

    最小-最大标准化:该方法保留了原始数据值之间的关系,对原始数据进行线性变换。当一个属性的实际最大值和最小值可用时,该属性将被标准化。

    z分数标准化:这里,属性值的标准化是基于属性的均值和标准差。当对一个属性进行标准化时,如果其实际最大值和最小值是未知的,则该方法仍然是有效的。

    十进制标准化:该方法通过移动属性值的小数点将其标准化。

    1.14.3 数据离散化

    数据离散化通过值映射将数值数据变换成区间标签或者概念标签。离散化技术包括:

    通过分箱将数据离散化:这是一个根据指定数目的、分段的、自上而下的无监督分割技术。

    根据直方图分析将数据离散化:在该技术中,直方图将属性值分割在不相交的范围内,称为桶或者箱,同样为无监督的方法。

    通过聚类分析将数据离散化:在该技术中,应用聚类算法离散化数值属性,它通过将该属性的值分割到不同的类或者组中。

    通过决策树分析将数据离散化:这里,决策树采用自上而下的分割方法,它是一个有监督的方法。为了离散化数值属性,该方法选择具有最小熵的属性值作为分割点,并递归地划分所得的区间以实现分层离散化。

    通过相关分析将数据离散化:该技术采用自下而上的方法,通过发现最佳近邻区间,然后递归地将它们合并成更大的区间,这是一个有监督的方法。

    相关资源:敏捷开发V1.0.pptx
    最新回复(0)