《Relation of the Relations A New Paradigm of the Relation Extraction Problem》论文阅读笔记
原文
代码
摘要
为了解决传统的关系抽取(RE)方法只能识别两个实体之间的关系,而忽略了同一上下文中多个关系之间的相互依赖性,即关系的关系(relation of relations,RoR)的问题,本文提出了一种新的RE范式,它将所有关系的预测作为一个整体进行优化。本文设计了一种数据驱动的方法,利用
图神经网络和关系矩阵Transformer自动学习RoR
,无需人工规则。在两个公开的数据集ACE05和SemEval 2018任务7.2上,本文的模型分别比最先进的方法提高了+1.12%和+2.55%,达到了显著的改进效果。
图神经网络和关系矩阵Transformer自动学习RoR
,无需人工规则。在两个公开的数据集ACE05和SemEval 2018任务7.2上,本文的模型分别比最先进的方法提高了+1.12%和+2.55%,达到了显著的改进效果。
1 Introduction
概述:
图1中的句子涉及到七个实体。在广泛使用的ACE 05数据集(Walker et al., 2006)中,有
99.76%
的数据实例涉及到两个以上的实体,而且每个文本中平均存在9.21个关系。
99.76%
的数据实例涉及到两个以上的实体,而且每个文本中平均存在9.21个关系。
传统方法:
采用了一种简化的设置,即只对每两个实体之间的关系进行分类(Zeng et al., 2014; Luan et al., 2018; Li and Ji, 2014; Gormley et al., 2015; Miwa and Bansal, 2016)。这意味着对于图1中有7个实体的句子,大多数以前的方法需要执行49个独立的关系分类任务(如果考虑自反关系)。由于现有的方法需要对输入的实体进行显式标注,因此无法减少这个数量的分类任务。例如,要预测实体对(obstetricians, California)之间的关系,输入需要转换为“...<e1> obstetricians <\e1> in <e2> California <\e2> will pay $60,000 in Los Angeles ...”。
传统方法的问题:
它不仅效率低下,而且忽略了同一上下文中多个关系之间的相互依赖性。例如,在图1中的49个关系中,如果已经知道了关系(Miami, is part of, south Florida),其中“is part of”是定义在两个对象上的关系,那么Miami就不太可能与其他任何人际关系有关,比如“is the father of...”。
RoR:
在ACE 05数据集中,每个文本中平均存在9.21个关系,这意味着每个关系都可能对同一文本中的其他关系有影响。将同一文本中多个关系之间的频繁出现的相互依赖性称为“关系的关系”(RoR)。
为了捕捉RoR,本文提出了一种新的关系抽取(RE)范式,它将同一文本中所有关系的预测作为一个整体来处理。本文的工作与(
Wang et al., 2019
)不同,后者仍然将每个实体对的关系视为独立的分类任务,但以牺牲准确性为代价节省了计算能力,通过一次编码所有实体。相反,本文新提出的范式不是关于计算成本和准确性之间的权衡,而是通过捕捉RoR来提高性能。
Wang et al., 2019
)不同,后者仍然将每个实体对的关系视为独立的分类任务,但以牺牲准确性为代价节省了计算能力,通过一次编码所有实体。相反,本文新提出的范式不是关于计算成本和准确性之间的权衡,而是通过捕捉RoR来提高性能。
2 New formulation of RE
传统的任务定义:
把每个文本序列和其中的两个实体之间的关系作为一个独立的分类问题来处理的。即:
给定一个文本序列
,以及
中的两个实体提及
和
,还有一个预定义的关系类型集合
,任务是预测
和
之间属于哪种关系类型。这样的 RE 问题可以归结为一个经典的句子
分类任务
。
,以及
中的两个实体提及
和
,还有一个预定义的关系类型集合
,任务是预测
和
之间属于哪种关系类型。这样的 RE 问题可以归结为一个经典的句子
分类任务
。
本文的任务定义:
给定一个文本序列
,以及
中的所有实体提及
,模型需要预测
中任意两个实体
之间的关系
,其中
。本文使用一个矩阵
来表示
中所有可能的关系,如图 2 所示。
,以及
中的所有实体提及
,模型需要预测
中任意两个实体
之间的关系
,其中
。本文使用一个矩阵
来表示
中所有可能的关系,如图 2 所示。
3 Statistical analysis of RoR
本文的案例研究基于 ACE05 数据集 (Walker et al., 2006)。下面将介绍两种 RoR 的形式:
- biRoR,只考虑两个关系之间的相互作用。
- multiRoR,考虑三个或更多关系之间的复杂关联。
3.1 Data overview
ACE05 (Walker et al., 2006) 是最广泛使用的关系抽取数据集。它的文本来自多种来源,包括新闻节目、报纸、新闻报道和音频转录。它有 6 种关系类型,如表 1 所示。对于这些关系,有 7 种有效的实体类型:设施 (FAC)、地缘政治实体 (GPE)、位置 (LOC)、组织 (ORG)、人 (PER)、车辆 (VEH)、武器 (WEA)。
3.2 BiRoR: Interdependency of two relations
3.2.1 Entity type-constrained biRoR(受实体类型约束)
给定两个实体和它们之间的关系类型
,可以判断
是否不可能与另一种关系类型
同时出现。为了说明这种方法,用 ACE05 数据集中的七种实体类型举例。表 1 显示了不同的关系类型允许的实体类型参数。根据这些信息,可以得出 12 条不兼容的规则。比如,同一个实体不能同时是 Per-Soc 的 arg0 和 Part-Whole 的 arg0,因为 Per-Soc 的 arg0 必须是人 (PER),而 Part-Whole 不能包含 PER。所有的不兼容规则都列在附录 A.1 中。
,可以判断
是否不可能与另一种关系类型
同时出现。为了说明这种方法,用 ACE05 数据集中的七种实体类型举例。表 1 显示了不同的关系类型允许的实体类型参数。根据这些信息,可以得出 12 条不兼容的规则。比如,同一个实体不能同时是 Per-Soc 的 arg0 和 Part-Whole 的 arg0,因为 Per-Soc 的 arg0 必须是人 (PER),而 Part-Whole 不能包含 PER。所有的不兼容规则都列在附录 A.1 中。
3.2.2 Semantic-constrained biRoR(受语义约束)
一个关系的含义可以决定它是否能够与另一个关系共存或者必须与另一个关系互斥。例如,Art 关系可以表示一个人(arg0)拥有一个设施(arg1),其中 arg1 必须是一个设施。如果已经存在这样的关系,那么同一个设施就不能再与一个城市构成 Part-Whole 关系,因为从语义上讲,城市(比如波士顿)不可能是一个设施的一部分。这种不兼容性不是由实体类型强制规定的,而是由关系的语义所暗示的。
语义也可以暗示一个关系是否应该具有对称性。例如,Per-Soc 关系总是对称的,因为家庭和朋友是可以互换的关系,而 Org-Aff 关系总是非对称的(Walker et al., 2005)。因此,如果一个关系
,那么
也等于
。而如果
,那么
。
,那么
也等于
。而如果
,那么
。
3.2.3 Empirical biRoR
本文对图 3 中的每对关系进行了相关性分析。从图中可以看出,3.2.1 节提出的不兼容性规则在红色的负相关区域得到了验证,3.2.2 节描述的 Per-Soc 和 Phys 的对称性在深蓝色的高相关区域得到了体现。此外,图中还显示了一些其他的相关性,例如 Part-Whole 和 Phys 关系经常同时出现。
3.3 MultiRoR: Correlation of 3+ relations
3.3.1 Entity type-constrained multiRoR
biRoR 是一种只涉及两个关系的规则,但还有一些更复杂的规则,它们可以作用于多个关系,称之为 multiRoR。multiRoR 是一种基于实体类型的规则,它把 3.2.1 节中介绍的两个关系的不兼容性推广到 3 个或更多的关系。举个例子,如果一个实体同时是 Org-Aff 和 Phys 关系的 arg1,那么根据实体类型的约束,它就不能再是 Art 关系的 arg1(因为它必须是 GPE)。图 4 显示了,当一个实体的关系数量增加时,所有可能的多个关系组合中,无效的组合所占的比例也会迅速上升,当有 7 个关系时,甚至高达 83%。
3.3.2 Numerically correlated multiRoR
从数据集中的所有关系矩阵 R 中,可以发现不同类别的关系之间存在数值相关性。这种相关性不是针对两个具体的关系,而是针对两类关系的总数,因此属于 multiRoR 的范畴(每一类关系都可能有多次出现)。图 5 中的相关性图显示了,Per-Soc 和 Gen-Aff 两类关系的总数呈现出明显的正相关,而 Art 和 Org-Aff 两类关系的总数则呈现出负相关。
4 Method
手工制定各种类型的RoR规则是一种简单的方法,但是它不适用于具有不同特征的数据集,也无法识别一些难以人工发现的RoR。因此,本文的目标是设计一个不依赖于手工规则的RoR学习模型。 训练策略如图6所示。接下来,将详细介绍三个关键的模型组件:
- 实体和关系的初始嵌入。
- 基于GNN的biRoR学习器。
- 学习multiRoR的矩阵变换器。
4.1 Initialization of entities and relations
在准备阶段,首先为每个实体生成嵌入。利用预训练的BERT模型(Devlin et al., 2019)处理文本,并通过对BERT最后一层的每个词的隐藏状态取平均,得到每个实体的表示。本文的框架可以灵活地采用其他获取预训练嵌入的方法,例如(Yang et al., 2019; Liu et al., 2019)。接着,
将两个相关实体的嵌入拼接起来,并通过一个前馈层,得到每个关系的初始嵌入
。
将两个相关实体的嵌入拼接起来,并通过一个前馈层,得到每个关系的初始嵌入
。
4.2 BiRoR Learner
本文的目标是利用图神经网络(GNN)来学习文本序列中不同关系之间的相互作用,实现双向关系推理(biRoR)。给定一个包含
个实体的文本序列
,将其表示为一个图
,其中
是由所有的实体和关系组成的节点集合,
是由每个关系节点和其对应的两个实体节点组成的边集合。
个实体的文本序列
,将其表示为一个图
,其中
是由所有的实体和关系组成的节点集合,
是由每个关系节点和其对应的两个实体节点组成的边集合。
采用图神经网络来捕捉节点之间的信息传递,特别是在关系节点之间。图神经网络的第一层以第4.1节中得到的节点嵌入(包括实体嵌入和关系嵌入)为输入。在第
层,图神经网络通过从邻居节点收集隐藏状态来更新当前层的节点表示,进而得到第
层的节点表示。具体地,有
层,图神经网络通过从邻居节点收集隐藏状态来更新当前层的节点表示,进而得到第
层的节点表示。具体地,有
其中
表示第
层中第
个节点的隐藏状态,
表示一个前馈网络,
表示一个权重矩阵,
表示节点
的邻居节点集合,
表示节点
对节点
的注意力权重。这个注意力权重
由下式计算:
表示第
层中第
个节点的隐藏状态,
表示一个前馈网络,
表示一个权重矩阵,
表示节点
的邻居节点集合,
表示节点
对节点
的注意力权重。这个注意力权重
由下式计算:
其中
和
分别表示计算注意力时的键和查询权重矩阵。
和
分别表示计算注意力时的键和查询权重矩阵。
4.3 MultiRoR Learner
图神经网络(GNN)具有强大的建模节点间交互的能力,这与双向关系推理(biRoR)相对应,但它在捕捉更复杂的多重关系推理(multiRoR)方面并不那么强大。例如,如果一个实体同时具有Org-Aff和Phys两种关系,那么它就不能具有Art关系。但是GNN结构并不一定能够捕捉涉及嵌套条件的这种复杂的multiRoR。因此,需要另一个模块来对关系矩阵
进行建模,它考虑了所有关系之间的动态,以便捕捉multiRoR。本文提出了一个简单而有效的模块,即关系矩阵Transformer。由于关系矩阵
中的每个关系
都需要关注所有其他关系,本文定制了基于Transformer的编码器架构来构建关系矩阵Transformer,它允许所有元素之间进行广泛的相互注意力(Vaswani et al., 2017)。将Transformer中的位置编码定制为两部分:行编码和列编码,每一部分都是一个从位置索引到
维向量空间的可学习映射。关系矩阵Transformer将位置编码,即行和列嵌入的和,加到4.1节中得到的关系的初始表示上。接着,关系矩阵Transformer学习所有关系之间的动态,并通过一个变换后的矩阵
输出所有关系的新特征,从而捕捉multiRoR。最后,将GNN和关系矩阵Transformer学习到的关系嵌入相加,然后将它们输入到最终的分类层,以获得每个关系的类型。
进行建模,它考虑了所有关系之间的动态,以便捕捉multiRoR。本文提出了一个简单而有效的模块,即关系矩阵Transformer。由于关系矩阵
中的每个关系
都需要关注所有其他关系,本文定制了基于Transformer的编码器架构来构建关系矩阵Transformer,它允许所有元素之间进行广泛的相互注意力(Vaswani et al., 2017)。将Transformer中的位置编码定制为两部分:行编码和列编码,每一部分都是一个从位置索引到
维向量空间的可学习映射。关系矩阵Transformer将位置编码,即行和列嵌入的和,加到4.1节中得到的关系的初始表示上。接着,关系矩阵Transformer学习所有关系之间的动态,并通过一个变换后的矩阵
输出所有关系的新特征,从而捕捉multiRoR。最后,将GNN和关系矩阵Transformer学习到的关系嵌入相加,然后将它们输入到最终的分类层,以获得每个关系的类型。