[KDD'22] GraphMAE: 生成式图自监督学习超越对比学习

| Paper: GraphMAE: Self-supervised Masked Graph Autoencoders

| Code: GitHub - THUDM/GraphMAE

引言:生成学习 vs 对比学习

自监督学习从大量的无监督数据中挖掘自身的监督信息,与有监督学习相比,自监督学习使用数据集本身的信息来构造伪标签。在表示学习方面,自我监督学习具有取代监督学习的巨大潜力[9]。

GraphMAE在节点分类(6个数据集平均F1)、图分类(7个数据集平均准确率)、分子性质预测(8个数据集平均AUC)任务上与对比学习效果比较

自从MoCo和SimCLR提出以来,对比学习在图自监督学习领域一直占据着主导地位,其在节点分类和图分类等任务上的表现都远远超过了生成式自监督学习的方法。不过,对比学习的成功往往依赖多个因素:

  • 高质量的数据增强。GraphCL[5]探索了遮盖属性、子图采样、随机添加删除边等多个数据增强方法的效果,发现图上的有效数据增强往往依赖于领域知识,例如随机添加和删除边在社交网络中有益于训练,而在分子图网络中则会带来负作用。然而,在图对比学习方面,到现在仍然没有通用的有效的数据增强的方式。
  • 通过额外的策略来稳定训练过程,避免模型陷入平凡解。如GRACE[8]、DGI[7]、GraphCL[5]等方法在训练中使用负采样,BGRL[6]则使用非对称网络结构+动量更新的策略。

生成式的自监督学习可以避免上述依赖。生成式自监督学习旨在重建数据本身的特征和信息。在NLP中,BERT[3]旨在恢复被mask的词;在CV中,MAE[2]则是复原图片的像素点。

BERT与MAE

对图来说,图自动编码器(Graph Autoencoder, GAE)可以重建图的结构信息或者节点特征。大多数已有图自动编码器主要关注链接预测、图聚类问题,因此通常选择重建图的结构信息,即邻接矩阵 [公式] 。然而,最近图自动编码器的进展远远落后于对比学习,其在分类等任务上的表现也并不尽如人意。节点分类、图分类等任务的SOTA均为基于对比学习的方法。

不同于以往的图自动编码器,GraphMAE发现仅仅重建节点特征便能够使得模型学习到充分的信息,从而有助于下游分类等任务。GraphMAE基于自动编码器的方法,改进主要包括:

  • 带掩码的节点特征重建。现有的Autoencoder通常采用边作为重建目标,但在下游分类任务上表现较差。
  • 带重掩码的解码过程,同时使用GNN作为decoder。现有的Autoencoder通常选用MLP作为解码器,由于大部分图的节点特征都是连续向量,MLP的能力不足以从encoding的结果中重建节点特征。
  • 使用放缩余弦误差(scaled cosine error) 代替MSE作为损失函数。

**GraphMAE在节点分类、图分类、分子性质预测三个任务共21个不同规模的数据集上评估了其表现。实验结果表明,GraphMAE取得了与对比学习可比,甚至超过当前最优对比学习方法的效果。**GraphMAE是将生成式学习应用到图自监督学习上的有效方法,不依赖任何数据增强等技巧。这表明生成式自监督学习仍然具有强大的能力和潜力,GraphMAE有助于启示我们在图生成式学习的进一步探索。

GraphMAE各部分对结果提升的效果(在Cora数据集上)


GraphMAE: 掩码自动编码器

GraphMAE

(1) 带[MASK]的节点特征重建

最近关于图自动编码器的很多研究工作倾向于同时重建结构和节点特征,不过,这些工作并没有使图自动编码器在取得像其在NLP、CV那样的重大进展。[1]通过蒸馏已训练好的的GNN中的信息,可以使MLP在节点分类上的表现也可以与GNN相媲美。这表明节点特征在分类等任务中的重要性。因此,GraphMAE用重建特征作为自监督学习的目标,在分类任务上的实验也表明重建节点特征能提供有效的信息。

具体地讲,与BERT和MAE类似,对一个图 [公式][公式] 是节点集, [公式] 是边集, [公式] 是节点特征。从图中采样部分节点 [公式] ,然后用一个掩码标识[MASK]来替换它们的输入节点特征,记经过mask之后得到的节点特征矩阵为 [公式] ,那么 [公式]

(2) 重掩码的GNN解码器

Decoder的作用将Encoder得到的节点表示 [公式] 映射回输入的节点特征 [公式] ,其设计将依赖于重建目标 [公式] 的语义水平。例如,在自然语言处理中,由于重建的目标是具有丰富语义的缺失词,通常一个比较简单的decoder(如MLP)就足够了。但在CV中,MAE中表明要恢复语义信息较低的像素点,需要使用更复杂的解码器(例如Transformer模型)。在图中,解码器重建的是信息量相对较小高维向量。传统的decoder要么不采用神经网络作为解码器,要么使用MLP。这些decoder的表现力较差,导致encoder得到的节点表示 [公式][公式] 几乎相同。因此,GraphMAE 采用了单层图神经网络作为decoder。GNN decoder可以根据一个节点周围的节点分布恢复其自身的输入特征,而不仅仅是节点本身,因此它可以帮助编码器学习高层次的信息。

此外,GraphMAE使用一种新的“重掩码”(re-mask) 的方式。用另一个掩码标识[DMASK],即decoder掩码标识向量,再次替换最初采样到的节点的表示,即 [公式] 。通过使用Re-mask和GNN做的decoder,被遮盖的节点“被要求”从邻近的未被遮盖的节点表示中重建输入特征。

(3) 放缩余弦误差

不同领域的自动编码器衡量重建误差的函数的不同。NLP中通常预测tokenizer生成的词序号,并用交叉熵函数来计算重建误差。CV中MAE直接使用均方误差(MSE)来预测被遮盖的像素。但在图中,如何定义一个tokenizer仍然有待进一步地探索。GraphMAE直接重建每个被mask掉的节点的原始特征,现有的进行节点特征重建的的图自动编码器都采用均方误差(Mean Squared Error, MSE)作为损失函数。但论文中提到MSE在训练中最小化到接近零或者很难优化,可能不足以进行有意义的特征重建,因此,GraphMAE采用了余弦误差来度量重建效果。同时,引入可放缩的余弦误差(Scaled Cosine Error)来进一步改进余弦误差。直觉上,对于置信度高的预测,其相应的误差通常小于1,并且当 [公式] 大于1时,误差会更快地衰减为零,从而调整难度不同样本的权重。从形式上讲,给定原始特征 [公式] 和decoder的输出 [公式] ,放缩的余弦误差的定义为:

[公式]

放缩因子是一个在不同数据集上可调整的超参数。这种误差放缩也可以被看作是一种自适应的样本权重调整,每个样本的权重随着重建误差的不同进行调整。某种程度上类似于Focal Loss [4]


实验结果

在节点分类任务上表现(准确率 %)

在图分类任务上表现(准确率 %)

在分子性质预测任务表现(ROC-AUC %)

从上述结果可以看出,GraphMAE在节点分类、图分类和分子性质预测任务上,平均performance都超过了最优的对比学习方法。

结语

GraphMAE工作展示出,生成式自监督学习在图表示学习仍然具有很大的潜力。相比于对比学习,GraphMAE不依赖数据增强等技巧,这也是生成式学习的优点。因此,generative ssl值得在未来的工作中进行更深入的探索[2][9]。更多细节可以参见论文和代码。

GitHub - THUDM/GraphMAE: GraphMAE: Self-supervised Masked Graph Autoencoders​

References

[1] Shichang Zhang, Yozen Liu, Yizhou Sun, and Neil Shah. 2022. Graph-less Neural 1037 Networks: Teaching Old MLPs New Tricks Via Distillation. In ICLR.

[2] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, and Ross Gir- shick. 2021. Masked autoencoders are scalable vision learners. In CVPR.

[3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL. 4171–4186

[4] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense object detection. In ICCV.

[5] Yuning You, Tianlong Chen, Yongduo Sui, Ting Chen, Zhangyang Wang, and 1030 Yang Shen. 2020. Graph contrastive learning with augmentations. In NeurIPS

[6] Shantanu Thakoor, Corentin Tallec, Mohammad Gheshlaghi Azar, Rémi Munos, Petar Veličković, and Michal Valko. 2022. Large-Scale Representation Learning 1000 on Graphs via Bootstrapping. In ICLR.

[7] Petar Veličković, William Fedus, William L Hamilton, Pietro Liò, Yoshua Bengio, and R Devon Hjelm. 2018. Deep Graph Infomax. In ICLR.

[8] Yanqiao Zhu, Yichen Xu, Feng Yu, Qiang Liu, Shu Wu, and Liang Wang. 2020.
Deep graph contrastive representation learning. arXiv preprint arXiv:2006.04131 1040 (2020).

[9] Xiao Liu, Fanjin Zhang, Zhenyu Hou, Li Mian, Zhaoyu Wang, Jing Zhang, and Jie Tang. 2021. Self-supervised learning: Generative or contrastive. TKDE (2021).