《异构信息网络挖掘：原理和方法》—— 第2章基于排名的聚类 2.1 概述

xiaoxiao2024-03-28 12

本节书摘来自华章出版社《异构信息网络挖掘：原理和方法法》一书中的第2章，第2.1节，作者( 美）孙艺洲（Yizhou Sun），（美）韩家炜（Jiawei Han），更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第2章基于排名的聚类

对于基于链接的异构信息网络聚类，我们需要探索涉及异构数据类型的链接。在这章中，我们学习如何使用不同类型的链接来计算不同类型对象的排名，展示排名和聚类如何相互提高，并最终获得合理的排名和聚类结果。我们将学习异构信息网络的两个特例：二元类型网络和星型网络。

2.1 概述

为了更好地理解信息网络，许多分析技术被设计出来，不过它们大多是基于同构信息网络的，其中两个方法值得关注：排名和聚类。一方面，根据数学化展示对象特征的排名函数，排名评价信息网络中的对象。通过这类函数，两个定性或定量的对象可以按一种偏序进行比较。其中PageRank［10］和HITS［34］或许是信息网络中最著名的排名算法。另一方面，聚类按照特定的相似性评价将对象进行分组，因此相似的对象在同一聚类中，反之不相似的对象则在不同的聚类中。总之，作为两个基础性的分析工具，排名和聚类可以用来总览信息网络，因此被广泛地应用于各种应用。聚类和排名通常被视为不相干的技术，它们独立地应用于信息网络分析。然而，若只使用它们中的一个来分析信息网络常常会导致不完整，甚至有时带有偏见的分析结果。例如，在不考虑信息网络中各个对象所属聚类的前提下对它们进行排名，容易导致得到无用的结果。例如，将数据库和计算机体系的刊物或作者混在一起排名，没有什么意义；另外，无差别地将大量对象（如数千作者）聚集到一个类中也是没有意义的。然而，将两个功能（聚类和排名）集成在一起，则能得到更易于理解的结果，如例21所示。

继续考虑同一数据集。如果我们聚集在DB/DM领域的刊物，并且对该聚类中的刊物和作者进行排名，可以得到表23所示的结果。例2.1表明，好的聚类确实提升了排名结果的质量。而且，考虑对象的排名通常能更好地理解每个聚类。通过整合聚类和排名，有助于得到更易于理解的网络分析结果。在这一章中，我们介绍两个基于排名的聚类算法RankClus和NetClus。它们分别适用于异构信息网络的两种特例，即双类型网络和星型网络。对这两种类型的网络，我们需要使用异构链接来计算排名和基于排名的聚类。相关资源：敏捷开发V1.0.pptx

最新回复(0)

《异构信息网络挖掘： 原理和方法》—— 第2章 基于排名的聚类 2.1 概述

第2章 基于排名的聚类

2.1 概述

《异构信息网络挖掘：原理和方法》—— 第2章基于排名的聚类 2.1 概述

第2章基于排名的聚类