ACL 2018|墨尔本大学:根据门控图神经网络的图序列学习

这是读芯术解读的第104篇论文

ACL 2018 Long Papers

根据门控图神经网络的图序列学习

Graph-to-Sequence Learning using Gated Graph Neural Networks

墨尔本大学

University of Melbourne

本文是澳大利亚墨尔本大学发表于 ACL 2018 的作业,提出了一个在图中编码完好结构信息的新模型,将门控图神经网络与输入改换耦合,该输入改换答应节点和边际具有它们自己的隐层表明,并处理了从前作业中存在的参数爆破问题。试验成果表明,在AMR图和根据句法的神经机器翻译中,本文模型优于业界的最好办法。

1 导言

图结构遍及存在于天然言语的表明中。尤其是,许多语句的语义结构运用有向无环图作为基础办法,而大多数根据树的句法表明也能够看作图。NLP运用的规模能够看作将图结构转化成序列的进程。例如,句法机器翻译需求将带树形标示的源语句转化为其翻译。

前人作业大多依靠于根据语法的办法,如tree transducers和超边替换文法。这些办法的一个要害约束是需求在图形节点和tokens之间进行对齐。这些对齐一般是主动生成的,构建语法时会传达过错。

在本文中,咱们提出了一个图到序列(g2s)学习模型,该模型运用神经编码器-解码器架构的最新进展。具体地说,咱们选用了一种根据门控图神经网络的编码器,它能够在不丢掉信息的状况下生成完好的图结构。这样的网络用边的信息作为标示参数,即便关于小规模标示词汇(按几百的次序)来说,这都或许是有问题的。为了处理这个问题,本文还引入了一个图形改换,将边改动到其他节点,处理了参数爆破问题。这也保证了边具有特定于图的躲藏向量,给网络中的留意力和解码模块供给更多信息。

咱们将本文模型与两个图序列问题进行比较,即摘要含义表明(AMRS)和根据源依存的信息神经机器翻译(NMT)。与曾经的作业比较,咱们的办法在不依靠于规范RNN编码的状况下,优于两个使命中的强壮的S2S基线。特别地,关于NMT,咱们发现,经过在依存树中增加相邻单词之间的接连边,避免了对RNNs的需求。这说明了咱们的办法的适用性:能够经过简略的图形改换将言语误差增加到输入,而不需求对模型体系结构进行改动。

2 模型

本文架构图如下所示,以AMR图为例,并将其转化为其外表办法。与规范的S2S模型比较,首要的不同在于编码器,在这里咱们运用GGNN来构建图形表明。鄙人文中,咱们将具体解说该体系结构的组件。

门控图神经网络

关于图的递归网络的前期办法假定参数的不动点表明并运用contraction maps学习。而这约束了模型的容量,使得学习节点间的长间隔联系变得很困难。为了处理这些问题,提出了门控图神经网络,以与门控递归单元相似的办法用门控机制扩展了这些结构。这答应经过现代反向传达进程学习网络。

给定有向图

是节点

的调集,

是边

的调集,

别离代表节点和边的词汇表。给定一个输入图,节点嵌入为

,GGNN界说如下:

在留意力编码阶码模型中运用GGNNs

在S2S模型中,输入是tokens序列,其间每个token由嵌入向量表明。然后,编码器经过兼并上下文(一般经过递归或卷积网络)将这些向量转化为躲藏状况表明。这些被馈送到留意力机制中,发生单个上下文向量,告诉解码器中的下一步操作。

咱们的模型遵从相似的结构,其间编码器是一个GGNN,它接纳节点嵌入作为输入,并运用图结构作为上下文,生成节点躲藏状况作为终究输出。从上图的示例中能够看出,咱们在AMR图中每个节点上有4个躲藏向量。留意力和解码器组件遵从相似的规范s2s模型,其间咱们运用双线性留意机制和2层LSTM作为解码器。

双向和方位嵌入

尽管咱们的体系结构在理论上能够与一般图一起运用,可是有根有向无环图(DAG)能够说是咱们所处理的问题中最常见的一类。这意味着节点嵌入信息以自上而下的办法传达。在这项作业中,咱们也遵从这一进程,保证信息均匀地在图中传达。可是,这又带来了另一个约束:由于图形基本上是无方向的,所以编码器现在不知道输入中存在的任何内涵层次结构。受Geern等人的启示,本文经过在每个节点中参加方位嵌入来处理这个问题。这些嵌入被表明为与根节点的最小间隔的整数值索引,并且被学习为模型参数。这种方位嵌入被约束为有根DAG:关于一般图,能够运用不同的间隔概念。

Levi Graph Transformation

本文提出将输入图转化为等价Levi图。给定一个图

,Levi图界说为

,新的边调集

包括出现在原始图中的每一个(node,edge)对的一个边。

直观地,将图转化成其Levi图等价为将边转化为附加节点。由于Levi图没有符号的边,所以没有参数爆破的危险:原始的边标签以与节点相同的办法表明为嵌入。此外,编码器天然生成原始边的躲藏状况。图2具体地展现了转化过程。

3 试验

咱们运用最新的AMR语料,包括36521/1368/1371个练习、开发和测验调集的切分。每一个图首要运用一个包括实体简化和匿名现象的办法。这个预处理过程在将图转化为等价Levi图之前进行。关于s2s基线,咱们也相同增加了规模符号。本文的基线模型选用根据留意力机制的s2s模型。关于g2s模型,设置GGNN编码器层次为8。维度设置为512,GGNN编码器为576。所以模型都运用Adam进行练习,初始学习率设置为0.0003,batch巨细设置为16。本文运用BLEU进行点评,选用bootstrap resampling查看计算的重要性。

下图展现了在测验集上的成果。当运用适当数量的参数时,咱们的办法在单个模型和集成中都明显优于s2s基线。

在图3中,咱们展现了一个比如,咱们的模型优于基线。AMR图包括四个从头引证,谓词引证图中从前界说的概念。咱们能够看到,S2S猜测逾越了“India and China”这一短语。G2S猜测避免了超生成,并且简直彻底匹配参阅。尽管这仅仅一个示例,可是它供给了保存完好的图形结构对这个使命有利的依据,咱们的定量成果证明了这一点。

咱们的第二个点评是NMT,运用AS图源言语依靠句法树。在专心于一个媒体资源的状况下,额定的言语信息往往更有利。咱们的试验包括两种言语对:英语德语和英语捷克语。下图显现了g2s+的输入图的示例,其间附加的次序边衔接单词(为了简略起见,省掉了反向和自身边)。上部:具有相应的依靠树的语句。底部:转化后的树变成Levi图,在单词(虚线)之间有附加的次序衔接。完好的图还包括反向和自边际,在图中省掉。

下表显现了这两种言语对在测验集上的成果。不考虑序列信息的G2S模型落后于咱们的基线。别的。咱们发现BNNN层是取得最佳成果的要害。可是,在相同的参数预算下,在单个模型和集成场景中,g2s+模型在BLEU得分方面优于基线。这个成果表明,在不依靠于RN或体系结构中的任何其他修正的状况下,在咱们的模型中兼并次序误差是或许的。

风趣的是,剖析CHRF++数时咱们发现了不同的趋势。这个衡量在两种言语对上都展现了PB-SMT模型的优势,一起在En-Cs中还显现了s2s的改善功能。在两个言语对中,无论是在体系层面仍是语句层面上,CHRF++现已显现出更好的与人类判别相联系的BLEU。

4 总结

咱们提出一种新的用于图到序列学习的编码器-解码器结构,在两个NLP使命中的体现都优于基线:AMR图生成和根据语法的NMT。咱们的办法处理了曾经作业中的线性信息丢掉、参数爆破等缺陷。咱们还特别展现了图转化如安在不改动底层架构的状况下处理根据图的网络的问题。这就是所提出的Levi图转化的状况,它保证解码器能够重视边和节点,并且在NMT的状况下也能够重视增加到依靠树的次序衔接。总的来说,由于咱们的体系结构能够处理一般的图,所以以额定的节点和/或边信息的办法增加言语误差是很简略的。咱们信任这在运用方面是一个风趣的研讨方向。

可是,咱们的架构有两个首要的约束。第一种是GGN具有固定数量的层,即便图在节点和边的数量方面能够改动巨细。更好的办法是答应编码器具有动态数量的层,或许根据输入图中的直径(最长途径)。第二个约束来自Levi图转化:由于边标签表明为节点,所以它们终究同享词汇表,因而同享相同的语义空间。但这是不抱负的,由于节点和边是不同的实体。一个风趣的代替计划是Weave Module Networks,它显式地解耦节点和边表明,而不会引起参数爆破。未来作业中,咱们考虑将这两种思维结合到咱们的架构中。