《知识图谱》赵军 阅读笔记(四)——第四章 实体识别和扩展

    xiaoxiao2025-03-19  19

    第四章 实体识别和扩展 阅读笔记

    4.1 实体识别和扩展4.1.1 任务概述4.1.1.1 实体识别的难点4.1.1.2 相关评测 4.1.2 基于规则的实体识别方法4.1.3 基于机器学习的实体识别方法——基于特征的方法4.1.4 基于机器学习的实体识别方法——基于神经网络的方法 4.2 细粒度实体识别4.2.1 任务概述4.2.2 细粒度实体识别方法 4.3 实体扩展4.3.1 任务概述4.3.2 实体扩展方法

        实体(Entity)作为知识图谱的基本单元,也在文本中承载信息的重要单位。实体识别和分析是支持知识图谱构建和应用的重要技术。根据国际公开评测(Automatic Content Extraction,ACE)给出的定义,在文本中对实体的引用可以有三种形式:命名性指称、名词性指称以及名词性指称。狭义来说,命名实体指现实世界中具体或抽象的实体。命名实体的确切含义,只能根据具体应用来确定。     本章内容大多是任务驱动,因此,首先对需要做的任务进行概述,之后,介绍完成这些任务使用的不同方案。

    4.1 实体识别和扩展

    4.1.1 任务概述

        命名实体的任务主要是识别出文本中实体的命名性指称项,并标注其类别。一般来说,命名实体识别的任务就是识别出待处理文本中三大类、七小类命名实体。不同任务对不命名实体类别粒度的需求不同。细粒度实体是被的难点主要是类别多、类别具有层次、标注成本高。

    4.1.1.1 实体识别的难点

        七类实体中的时间、日期、货币、百分比具有明显规律,较为容易识别,其他三类(人名、地名、机构名)比较灵活,大多需要配合上下文等其他信息配合完成识别。 命名实体的识别过程包括两部份:(1)识别实体边界;(2)确定实体类别(人名、地名、机构名等相关信息)。

        命名实体识别的主要难点在于以下几个方面:         (1)命名实体形式多变。命名实体内部结构复杂。例如,人名中虽然对姓氏进行了限制,但是在名中用词多变,杜甫、杜少陵、杜工部、杜子美等都可以代指杜甫这个人。地名和机构名中也有类似情况。         (2)命名实体语言环境复杂。同样的汉字序列在不同的上下文中可以代指不同的意境。例如,人名中名可以为彩霞,这个词在某些情况下也可以代指一种自然现象

    4.1.1.2 相关评测

        相关评测会议推动了命名实体识别技术的发展。

    4.1.2 基于规则的实体识别方法

        有关命名实体识别大致有两种方法,其中一种是基于规则的方法另一种是基于机器学习的识别方法。     两种方法对比来说,对于基于规则的方法,其优势在于准确率高、接近人类的思考方式,表示直观,便于机器进行推理;其劣势在于成本较高,所制定的规则大多只用在本领域内,无法扩展到更大领域。对于基于机器学习的实体识别方法,其优势在于更加灵活、更加健壮,相对于基于规则的识别方式比较客观,不太需要人工干预,不限制可使用的领域;其缺陷是 在需要人工标注数据,数据稀疏问题严重。

        最具有代表性的方法:基于命名实体词典的方法。其他经典方法为有:采用字符串完全匹配或部分匹配的方式;基于正向最大匹配的方法;基于逆向最大匹配的方法;基于最短路径的方法

        本方法用于特定领域小规模语料时速度较快而且测试效果较好。

    4.1.3 基于机器学习的实体识别方法——基于特征的方法

        基于机器学习的实体识别方法主要是利用已标注好的语料训练模型,通过已知的字段概率来推测候选字段的计算概率值,并由此判断其是否为命名实体。这种方法鲁棒性较好,构建代价小。     基于特征方法主要是应用传统机器学习方法结合人工设计的大量特征进行实体识别。现在已经有多种机器学习模型被用于命名实体识别。但是,无论何种模型,都在试图充分发现和利用实体所在的上下文特征和实体的内部特征,包括词形,词性和角色级特征     基于特征方法进行实体识别的基本步骤:

    特征选取 例如,在英语中选择单词的词性,大小写,词缀信息等作为特征。模型学习 根据具体的任务和需求选择。比如:支持向量机、最大熵模型,隐马尔科夫模型以及条件随机场等,多模型也可以联合使用。样本预测 利用训练好的模型,对输入样本进行标注预测后处理 最广泛的是基于字的模型,代表性的方法有CRF。

    4.1.4 基于机器学习的实体识别方法——基于神经网络的方法

        基于神经网络的识别方法和基于特征的识别方法的不同点在于其实自动捕获特征进行识别的,不需要过多的人工干预。     基于神经网络方法进行实体识别的基本步骤:

    特征表示 主要是设计和搭建神经网络模型并利用其将文字符号特征训练为分布式特征信息;模型训练 利用标注数据,度,优化网络参数,训练网络模型。模型分类 利用训练好的模型对新样本进行分类,完成实体识别。

    4.2 细粒度实体识别

    4.2.1 任务概述

        细粒度实体识别大部分是针对特定任务的。这些细粒度实体类别可能会包含更多的知识,有助于相应任务性能的提升。例如,产品名、会议名、疾病名和赛事名。

    细粒度实体类别分类     不同研究人员有不同的分类,其中自动内容抽取会议上将实体分为7大类以及45小类。其他人员分类有所不同。细粒度实体类别特点     类型更多、类别具有层次结构细粒度实体类别难点     类别制定、语料的标注、实体识别的方法细粒度实体类别的制定     最直接的办法是人工制定,也可以使用人工构建的词典知识资源作为类别来源。

    4.2.2 细粒度实体识别方法

        对于已经使用人工标注的语料,可以使用前面介绍过的方法。在没有标注的情况下,则可以使用聚类方法自动获得实体相关信息的集合,但是这样没有办法自动获得实体的类别标签。

    4.3 实体扩展

    4.3.1 任务概述

        实体扩展可以理解为给出一些种子实体,之后自动获得同类实体。其主要目标是从海量、冗余、异构、不规范的网络数据中大规模地抽取开放类别的命名实体,进而构建开放实类别命名实体列表。和实体识别相比,其具有目标实体类别开放、目标数据领域开放、以“抽取”代替“识别”等特点。     实体扩展的一些应用如下所示:

    学术界 知识图谱中的实体扩展。提高问答系统的性能,尤其是List型问题。提高垂直领域信息抽取的效果。 工业领域 知识图谱中同类实体的检索和推荐提高查询分析的准确率辅助文档分类辅助用户行为分析广告精准投放

    4.3.2 实体扩展方法

        目前典型的实体扩展系统主要有以下三个模块组成:

    种子处理模块 本模块主要负责选择高质量的种子,提高实体抽取的准确度。实体抽取模块 本模块主要负责从语料中抽取属于目标类别的实体。通常来说,本模块会分为“候选抽取”和“打分排序”两个子模块。结果过滤模块 对抽取出的实体集合进行过滤。

        其中,种子处理模块和结果过滤模块可以复用,不同的实体扩展方法的区别主要在于实体抽取模块。目前典型的实体扩展方法主要分为基于模板的实体抽取和基于统计的实体抽取两大类。

    基于模板的实体抽取 基本思路:如果目标实体与种子同属于某一个语义类,则他们的上下文关系应该符合特定的模板。这里的模板可以是预先定义好的指示上下位关系的语义模板,也可以是通过分析种子实体所在的上下文得到的模板。基于统计的实体抽取 基本思路:使用粗糙的方式获得候选实体,之后通过分析整个语料库的统计信息来得到候选的分布信息;最后计算候选实体和种子实体的分布相似度作为置信度,并对候选实体进行排序。

        同样的,种子处理和结果过滤两个方面也很重要,也有相关方案对其进行解决。

    最新回复(0)