数据挖掘算法——关联分析算法（apriori和FPgrowth）

xiaoxiao2025-01-07 105

1.什么是关联分析？

从大规模数据集中寻找物品间的隐含关系被称作关联分析（association analysis）或者关联规则学习（association rule learning）。

2.关联分析中的关系

频繁项集（frequent item sets）是经常出现在一块的物品的集合。用{}表示关联规则（association rules）暗示两种物品之间可能存在很强的关系。用{x} ➞ {y}表示

3.如何评判这些关系

支持度（support）：数据集中包含该项集的记录所占的比例。如：{x,y}项集p(x,y) 可信度或置信度（confidence）是针对一条诸如{x} ➞ {y}的关联规则来定义的。p(y|x)=p(x,y)/p(x) 提升度（Lift）提升度表示含有X的条件下，同时含有Y的概率，与Y总体发生的概率之比。Lift(X→Y) = P(y|x) / P(y)=p(x,y)/p(x)*p(y)

4.如何寻找数据集（所有物品）之间的关系

构建数据集（所有物品）的项集，求出项集中的关联关系。如0，1，2，,3物品有15次组合，包含N种物品的数据集共有2的N次方-1种项集组合。这样的话计算起来用时太多。

5.Apriori算法

如果某个项集是频繁的，那么它的所有子集也是频繁的。，但是如果反过来看就有用了，也就是说如果一个项集是非频繁集，那么它的所有超集也是非频繁的。用Apriori这种方法来减少项集的数。 Apriori算法的一般过程收集数据：使用任意方法。准备数据：任何数据类型都可以，因为我们只保存集合。分析数据：使用任意方法。训练算法：使用Apriori算法来找到频繁项集。测试算法：不需要测试过程。使用算法：用于发现频繁项集以及物品之间的关联规则。

6.FP-growth 算法

基于数据构建FP树从FP树种挖掘频繁项集

案例：

import pandas as pd pd.options.display.max_columns = 70 # 为了查看所有的属性 from mlxtend.frequent_patterns import apriori from mlxtend.frequent_patterns import association_rules #电影关联性分析 movies = pd.read_csv('movies.csv') # print(movies.head()) # print(movies.shape) movies_ohe = movies.drop('genres',axis=1).join(movies['genres'].str.get_dummies('|')) # print(movies_ohe.head()) # print(movies_ohe.shape) #设置电影的索引 # print(movies_ohe.set_index(['movieId','title'],inplace=True)) # print(movies_ohe.head()) movies_ohe=movies_ohe.drop(['movieId','title'],axis=1) #进行关联分析 frequent_itemsets_movies = apriori(movies_ohe,use_colnames=True, min_support=0.025) print(frequent_itemsets_movies) rules_movies =association_rules(frequent_itemsets_movies, metric='lift', min_threshold=1.25) print(rules_movies) print(rules_movies[(rules_movies.lift>4)].sort_values(by=['lift'], ascending=False))

最新回复(0)