《数据挖掘:实用案例分析》——2.3关联规则

    xiaoxiao2021-07-07  277

    2.3 关联规则

      我们经常会碰到这样的问题:

      1)商业销售上,如何通过交叉销售得到更大的收入?  2)保险方面,如何分析索赔要求发现潜在的欺诈行为?  3)银行方面,如何分析顾客消费行业,以便有针对性地向其推荐感兴趣的服务?  4)哪些制造零件和设备设置与故障事件关联?  5)哪些病人和药物属性与结果关联?  6)哪些商品是已经购买商品A的人最有可能购买的?

      除此之外,人们希望从大量的商业交易记录中发现有价值的关联知识,以帮助进行商品目录的设计、交叉营销或其他有关的商业决策。在商业销售上,关联规则可用于交叉销售,以得到更大的收入;在保险业务方面,如果出现了不常见的索赔要求组合,则可能为欺诈行为,需要进一步调查;在医疗方面,可找出可能的治疗组合;在银行方面,对顾客进行分析,可以推荐感兴趣的服务等。这些都属于关联规则挖掘问题,关联规则挖掘的目的是在一个数据集中找出各项之间的关系,从大量的数据中挖掘出有价值的描述数据项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越有兴趣。

    2.3.1 什么是关联规则

      关联规则(Association):揭示数据之间的相互关系,而这种关系没有在数据中直接表示出来。

      关联分析的任务就是发现事物间的关联规则或称相关程度。关联规则的一般形式是:

      如果A发生,则B有百分之C的可能发生。C称为关联规则的置信度(Confidence)。

      利用关联分析能寻找数据库中大量数据的相关联系,常用的两种技术为:

      相信大家都听说过“尿布与啤酒”的故事。在某超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。

      产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。

      按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。

    2.3.2 关联规则算法

      常用关联规则算法见表2-3。

    相关资源:《RapidMiner数据分析与挖掘实战》第8章 关联分析与关联规则

    最新回复(0)