当前位置: 主页 > 学术动态 >

异质图门控注意力网络

作者:   文章来源:   点击数:   更新日期: 2021-06-28

论文标题: Heterogeneous Graph Gated Attention Network

发表会议: The International Joint Conference on Neural Networks (IJCNN2021) CCF-C类会议

作者列表:

1)     中国石油大学(北京) 信息科学与工程学院 自动化系 控制科学与工程 博19

2) 刘建伟 中国石油大学(北京) 信息科学与工程学院 自动化系

3) 左   信 中国石油大学(北京) 信息科学与工程学院 自动化系

4) 李卫民 上海大学 计算机工程科学学院 计算机科学与技术

背景与动机:

传统的机器学习方法只能处理常规的规则有序的欧氏结构数据,但是当处理不规则无序的非欧氏结构数据时,这些方法就显得无能为力。由节点和边构成的G=(V, E)是一种典型的非欧氏结构数据。现实中越来越多的实际问题可以抽象图结构数据,例如生化领域,推荐系统,自然语言过程和计算机视觉,这些问题必须图结构数据能够得到更好的解决因此,我们需要一新的模型来处理这种结构数据。近年来,为了解决上述问题,无数学者不断努力探索,设计出了新的模型方法,称为图神经网络(graph neural network, GNN),它可以完美地处理结构数据。图卷积网络(graph convolutional neural network, GCN)是GNN的重要分支,它成功的将传统的卷积神经网络(convolutional neural network, CNN)迁移到了对图结构数据的处理上。GCN包含基于谱的GCN和基于空间的GCN。 基于谱域的GCN,利用频谱理论和傅里叶变换,将传统的卷积算子迁移到图上,其中包括第一代GCN,CheNet和“第二代GCN等方法。基于空间的GCN从空间角度出发,实现对邻居节点的有效聚合,包括PATCHY-SAN,Graph-SAGE和GAT 等方法

上述方法在处理图结构数据的任务中都表现出了良好的性能,但是它们只能处理包含一种类型的节点和边的同质图。现实中的许多场景都是包含不同类型的节点或边的异构图节点或边的异质性增加了GNN处理图结构数据的难度。元路径是用于处理异构图的强大工具,每个元路径表示异构图中不同的语义信息,包含各个对象之间丰富的关系同时,注意机制在深度学习中取得了巨大的成功,因此许多研究者试图将其应用于异构图。一些学者已经将注意力机制用于处理异构图并且使用多头注意力机制来减少图结构数据的方差。但是,在异质图中由于某些注意头在本质上比其他注意头更重要将每个注意头均等地对待不公平因此我们设计了一个新的处理异质图结构的模型。

在本文中,我们提出了基于元路径的异构图门控注意力网络(heterogeneous graph gated attention network, HGGAN),这是一种用于处理异构图的神经网络模型。为了完成异构图上的学习任务,HGGAN包含节点特征空间统一,中心(center)节点-邻居(neighbor)节点聚合(C-N聚合)和元路径(metapath)-元路径聚合(M-M聚合)。首先,由于节点类型不同,节点特征向量势必会于不同维数的向量空间中,因此我们使用变换矩阵将它们投影到相同维数的向量空间中。其次,在某个元路径我们采用具有注意机制的C-N聚合,通过聚中心节点的邻居节点特征对其进行表示。为了减少图结构数据的差异,我们在C-N聚合中使用了多头注意力机制传统的多头注意力机制中,将每个注意头均等对待但是,在异质图中由于某些注意头在本质上比其他注意头更重要在HGGAN中,我们在每个注意力头上设置门控值以区分每个注意力头的贡献值由卷积子网确定。最后,为了获得节点的最终矢量表示,我们设计了元路径间的M-M聚合策略,并通过注意机制来学习不同元路径的重要性。

总而言之,我们这项工作的主要贡献如下:

(1) 我们设计了一种基于多头注意力机制的C-N聚合方法与传统方法不同 我们的方法在每个注意力头上设置门控值以控制其重要性,从而确保准确合理的提取元路径节点特征。

(2) 我们提出了一种新的基于元路径的图神经网络方法,该方法包含节点特征空间统一,C-N聚合和M-M聚合。

(3) 我们在3真实数据集进行了实验,以评估HGGAN的性能。 结果表明,HGGAN在异构图的处理上要优于一些先进技术。

设计与实现:

图1 为HGGAN的结构。 HGGAN包含三个模块:(a)节点特征空间统一,它统一所有节点的特征空间(b)C-N聚合,它聚合特定元路径邻居节点特征(图中有三个元路径,不同颜色虚线圈)。我们使用门控多头注意力机制来聚合邻居节点特征;(c) M-M聚合,它聚合不同元路径的节点特征以获得中心节点的最终表示。图2 为在C-N聚合中,传统多头注意力机制和门控多头注意力机制的不同。

图1 HGGAN结构

图2 (a)传统多头注意力机制, (b)门控多头注意力机制

实验结果:

在节点分任务上,我们在3真实数据集和6种基方法进行对比。为了验证该方法的性能,我们选择了2个度量标准来衡量节点分类效果:Macro-F1 and Micro-F1

从表1的实验结果可以清楚地看出,与其他一些先进方法相比,我们的方法具有明显的优势,验证了HGGAN可以很好的处理异质图

Table 1. Experimental Comparison Results

Macro-F1

Micro-F1

Datasets

ACM

DBLP

IMDB

ACM

DBLP

IMDB

Training

(%)

20/40

60/80

20/40

60/80

20/40

60/80

20/40

60/80

20/40

60/80

20/40

60/80

DeepWalk

77.25/80.47

82.55/84.17

77.43/81.02

83.67/84.81

40.72/45.19

48.13/50.35

76.92/79.99

82.11/83.88

79.37/82.73

85.27/86.26

46.38/49.99

52.21/54.33

ESim

77.32/80.12

82.44/83.00

91.64/92.04

92.44/92.53

32.10/31.94

31.68/32.06

76.89/79.70

82.02/82.89

92.73/93.07

93.39/93.44

35.28/35.47

35.64/35.59

Metapath

-2vec

65.09/69.93

71.47/73.81

90.16/90.82

91.32/91.89

41.16/44.22

45.11/45.15

65.00/69.75

71.29/73.69

91.53/92.03

92.48/92.80

45.65/48.24

49.09/48.81

HERec

66.17/70.89

72.38/73.92

91.68/92.16

92.80/92.34

41.65/43.86

46.27/47.64

66.03/70.73

72.24/73.84

92.69/93.18

93.70/93.27

45.81/47.59

49.88/50.99

GCN

86.81/87.68

88.10/88.29

90.79/91.48

91.89/92.38

45.73/48.01

49.15/51.81

86.77/87.64

88.12/88.35

91.71/92.31

92.62/93.09

49.78/51.71

52.29/54.61

GAT

86.23/87.04

87.56/87.33

90.97/91.20

90.80/91.73

49.44/50.64

51.90/52.99

86.01/86.79

87.04/87.11

91.96/92.16

91.84/92.55

55.28/55.91

56.44/56.97

HGGAN

87.13/87.89

88.55/88.89

91.75/92.34

92.86/92.97

49.64/50.79

52.10/53.23

87.09/87.78

88.35/88.64

92.75/93.26

93.86/93.97

55.43/56.14

56.68/57.16

作者简介:

刘建伟,副教授

博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员,中国人工智能学会机器学习分会高级会员。在计算机学报,自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇,其中三大检索150多篇。

联系方式:liujw@cup.edu.cn