ACL 2018|LinkNBed:基于实体链接的多图表示学习

这是读芯术解读的第103篇论文

ACL 2018 Long Papers

LinkNBed:基于实体链接的多图表示学习

LinkNBed: Multi-Graph Representation Learning with Entity Linkage

佐治亚理工学院

Georgia Tech

本文是佐治亚理工学院发表于 ACL 2018 的工作,为知识图谱构建工作提出了一个深层关系学习框架LinkNBed,通过识别多图间的实体链接,联合多个图来学习实体和关系表示,并建立一个有效的多任务训练程序。在链接预测和实体链接上的实验表明,本文方法相比最新的关系学习方法有实质性的改进。

1 引言

多关系数据推理是人工智能领域中的一个关键概念,知识图谱作为建立多关系数据模型的有效工具已经在,已经在信息检索、自然语言处理、推荐系统、问答系统等许多重要应用领域广泛应用,越来越受到重视。因此,研究者大量地构建许多大型的知识库,DBpedia、Google知识图谱、Yago和NELL,它们可以通过关系格式表示网络信息。

所有知识图谱都具有不完整和稀疏性的缺点,因此大多数现有的关系学习技术集中于使用不完全图中的观察到的三元组,来推断该图中未观测的三元组。学习实体和关系的向量空间表示的神经网络技术,在此任务中取得了显著成功。然而,这些技术只专注于从单一的图中学习。除了不完全性之外,这些知识图谱还共享一组重叠的实体和与不同信息的关系。这使得设计一种能够学习多个图,并最终联合形成统一巨图的技术,变得越来越引人注目。虽然近年来对单图学习表示的研究发展迅速,但是对于解决跨多图学习中遇到的独特挑战,尚缺乏高效有用的方法。

多图表示学习方法首先需要解决图的对齐问题,然后对合并后的图使用现有的关系学习方法。然而,真实世界的数据本质上是包含噪声且复杂的,这使得鲁棒的特征学习变得很困难。近年来,深层学习在噪声大、规模大、异构的图形数据学习中扮演着越来越重要的作用。因此,我们假设将图对齐任务与跨多关系图的深度表示学习相结合有可能对两个任务产生协同效应。我们确定图形对齐过程的一个关键组件-实体链接-在多图学习中也起着至关重要的作用。例如,对于参与者来说,通过两个知识图谱学习的嵌入应该比所有其他实体的嵌入更接近。类似地,由于共享上下文和数据,已经跨两个图对齐的实体应该能产生更好的嵌入。为了对这种现象进行建模,我们提出了一种新的深度学习框架LinkNBed,它联合执行表示学习和图形链接任务。本文的创新点如下:

  • 提出了联合学习实体表示和实体链接的新方法。本文框架的新颖性源于它支持跨异构类型的实体链接任务。

    设计了一个独立于图的归纳框架,该框架学习为实体和关系捕获上下文信息,它将结构图和语义信息结合起来,以规则的方式进行联合推理。

    标记实例(特别是链接任务的正实例)通常非常稀疏,因此本文设计了一种新颖的多任务损失函数,其中实体链接任务跨各种学习场景进行稳定处理,例如仅使用未标记的实例或仅使用负实例。

    设计了一个有效的训练程序,以线性时间执行三组数的联合训练。在Freebase和IMDB推荐的两组数据集上,本文方法都表现出了优越的性能。

    2 模型

    我们提出了一个新的归纳多图关系学习框架,该框架学习一组聚合器函数,该聚合器函数能够为多关系图中的实体和关系摄取各种上下文信息。这些功能将摄取的结构和语义信息编码成低维实体和关系嵌入。此外,我们使用这些表示来学习关系得分函数,该函数可以计算两个实体在特定关系中可以如何进行连接。这个公式背后的关键思想是,当观察到一个三元组时,可以使用各种上下文信息来解释两个实体之间的关系,例如两个实体的局部邻域特征、两个实体的属性特征和实体的类型信息。

    在本文框架中通过多个图建立实体嵌入关系的两个关键点如下:

    Atomic Layer

    实体、关系、类型和属性首先被编码在其基本向量表示中。我们使用这些基本表示,进一步获得更复杂的上下文嵌入表示。

    属性。对于以键-值对表示的给定属性a,我们使用段落paragraph2vec类型的嵌入网络来学习属性嵌入。具体来说,我们将属性嵌入向量表示为:

    akey是one-hot向量,aval是特征向量。注意,嵌入向量的维数不一定需要相同。

    Contextual Layer

    虽然上述实体和关系嵌入有助于捕获非常通用的潜在特征,但是可以进一步捕获结构信息、属性信息和类型信息以丰富嵌入,更好地解释事实的存在。这样的信息可以被建模为图中的节点和边缘的上下文。为此,我们设计以下规范聚合器函数,该函数通过聚合相关嵌入向量来学习各种上下文信息:

    Representation Layer

    关系打分函数

    采用下述公式利用上文计算出得嵌入表示去捕获两个实体之间的交互关系:

    目标函数

    给定N的一个集合D,定义多任务目标为:

    3 实验

    我们在两个真实知识图谱上对LinkNBed和基线进行了评估:D-IMDB(从大规模IMDB数据导出的)和D-FB(从大规模Freebase数据快照中提取)。下表为实验中使用数据集的统计结果。

    训练算法如下:

    链接预测结果

    我们在两个知识图谱之间联合训练LinkNBed模型,然后对单个图进行推理,以进行链接预测。下表显示了链接预测的性能。

    本文提出的有注意机制的模型变体在D-IMDB上的性能优于所有基线,与单图状态复杂模型相比提高了4.15%,在DFB数据集上提高了8.23%。由于D-FB具有大量的稀疏关系、类型和属性,并且与D-IMDB相比,它的关系证据(三元组的数量)数量级较低,因此学习D-FB更具挑战性。因此,LinkNBed在D-FB上的显著改进证明了该模型的有效性。只有实体嵌入的简单版与具有不同目标函数的DistMult模型类似。因此,这两个模型的性能与预期的结果一致。我们观察到,仅Neighborhood上下文仅提供了少量的改进,而模型在属性的使用方面获益更多。尽相比于通过训练和评价单个图获得的基线,本文方法的优异性也进一步证明了多图学习的有效性。

    实体链接结果

    我们在两种设置中展示本文方法的实体链接结果:a)受监督的情况,使用两个目标函数进行训练。b)无监督的情况下,只学习关系损失函数。为了实现所有模型的无监督情况下的实体连接,首先训练第二阶段的简单神经网络分类器,然后进行推理。在监督的情况下,本文使用以下算法来执行推理。

    实验结果如下表所示。

    本文方法显著优于所有基线,在监督情况下比第二最佳基线高33.86%,在非监督情况下比第二最佳基线高17.35%。在两种情况下,我们方法的性能差异表明,两个训练目标通过跨图的学习相互促进。与其他最先进的系统模型相比,GAKE在这个任务上的卓越性能表明了使用上下文信息进行实体链接的重要性。我们模型的其他变体的性能再次证明了属性信息比邻域上下文更有帮助。

    4 总结

    许多数据驱动组织,如Google和Microsoft,采用集成来自多个源的数据的方法来构建统一的超级图,在搜索、问答等领域都表现出突出优势。然而,对于大规模的知识图来说,链接实体和关系、冲突解决任务仍然具有很大挑战性,本文提出了一种深层关系学习框架,可以在此构建过程中起到至关重要的作用,它利用了一个有效的学习和推理过程,学习跨多个图的实体和关系嵌入。与只在单个图形上训练的现有方法相比,本文方法在链接预测和实体链接任务上都展示了优越的性能。这项工作开辟了一个新的多知识图谱联合表示学习的研究方向。

    对于未来的工作,考虑将本文工作从两个图扩展到多个图。一种简单的方法是通过组合三元组来创建由多于两个图组成的统一数据集,并在统一图上应用学习和推理,而不需要对方法进行任何重大改变。本文使用归纳框架学习函数来编码上下文信息,因此是图无关的。或者,可以开发更复杂的方法,通过对图对进行迭代合并和学习,直到遍历完输入集合中的所有图。

    论文下载链接:

    "

打开APP阅读更多精彩内容