Graph Anomoly Detection: 图异常检测
异常或异常值是与大多数对象显著偏离的数据对象,就像是由不同的机制生成的数据一样(Han et al., 2011)。作为一个由来已久的问题,异常检测因其广泛的适用任务而备受关注,例如网络安全(Ten et al., 2011)、欺诈检测(Ngai et al., 2011)、健康监测(Bao et al. ., 2019)、设备故障检测 (Sipple, 2020) 等等。
随着图数据在 Web 时代变得无处不在,图信息通常在识别欺诈用户或欺诈活动方面发挥着至关重要的作用,例如社交网络中的人际关系和金融平台上的交易活动。通常,图异常检测可以视作样本极度不均衡的异构图二分类问题,其主要注重于判别图上的节点(用户/交易)是否为异常节点(欺诈用户)。因此,作为一个重要的研究方向,基于图的异常检测具有很重要的研究价值。
本文旨在总结19年以来包括今年最新的在图数据上的一些重要的异常检测算法及其相应的数据集,并将其所使用方法归为四类主要方向,且根据其中较为广泛使用的 Yelp-Chi 和 Amazon数据集给出了基于CogDL的baseline。
基于Attention的方法
A Semi-supervised Graph Attentive Network for Financial Fraud Detection(IEEE 20’)
Link:[2003.01171] A Semi-supervised Graph Attentive Network for Financial Fraud Detection
Knowledge guided graph attention network for detecting healthcare misinformation. (KDD 20’)
Link:https://dl.acm.org/doi/pdf/10.1145/3447548.3467142
Intention-aware heterogeneous graph attention networks for fraud transactions detection (KDD 21’)
Link:https://arxiv.org/pdf/2204.10085.pdf
-
在 A Semi-supervised Graph Attentive Network for Financial Fraud Detection(IEEE 20’)文章中,作者对于图数据上的异常检测,将原始数据根据用户信息分为了不同的view来构建图数据,且分别在节点层面和不同的view层面分别使用了attention机制以达到最佳效果。
-
在 Knowledge guided graph attention network for detecting healthcare misinformation. (KDD 20’) 文章中,作者通过构建知识图谱且使用attention机制聚合邻居节点信息来鉴别heathcare中的一些误导性的不实信息。
-
在 Intention-aware heterogeneous graph attention networks for fraud transactions detection (KDD 21’) 文章中,作者根据用户意图构建相应的异构图且根据异构图中不同边(意图)类别分配不同的attention来实现对模型效果的提升。
基于Resampling的方法
Enhancing graph neural network-based fraud detectors against camouflaged fraudsters.(CIKM 20’)
Link:https://arxiv.org/pdf/2008.08692.pdf
Alleviating the inconsistency problem of applying graph neural network to fraud detection (SIGIR 20’)
Link:https://arxiv.org/pdf/2005.00625
A gnn-based imbalanced learning approach for fraud detection. (---- 21’)
Link:https://dl.acm.org/doi/pdf/10.1145/3442381.3449989
-
在 Enhancing graph neural network-based fraud detectors against camouflaged fraudsters.(CIKM 20’)文章当中,通过采用强化学习的方式,对不同的边类型进行不同的采样,从而提高欺诈检测的性能。
-
在 Alleviating the inconsistency problem of applying graph neural network to fraud detection (SIGIR 20’) 文章当中,通过节点与其邻居节点之间的特征相似度,根据不同的特征相似的来进行采样来解决文中提出的欺诈检测(图异常检测)中特征不一致的问题从而提升图异常检测中在欺诈检测上的应用性能。
-
在 A gnn-based imbalanced learning approach for fraud detection. (---- 21’) 文章当中,通过使用基于不同边关系的标签平衡采样器,对节点进行标签平衡采样后聚合邻居节点信息,从而提升网络对于异常节点的识别检测能力。
基于重建Loss函数的方法
Deep anomaly detection on attributed networks(ICDM 19’)
Link:https://www.public.asu.edu/~kding9/pdf/SDM2019_Deep.pdf
Error-bounded graph anomaly loss for gnns. (CIKM 20’)
Link:http://www.meng-jiang.com/pubs/gal-cikm20/gal-cikm20-paper.pdf
A synergistic approach for graph anomaly detection with pattern mining and feature learning (IEEE 21’)
Link:A Synergistic Approach for Graph Anomaly Detection With Pattern Mining and Feature Learning | IEEE Journals & Magazine | IEEE Xplore
- 上述三篇图异常检测文章更加着重于针对图异常检测中异常节点和可信节点样本数量严重不均,以及异常节点在图数据中无法更好的通过聚合获取邻居信息的两个问题,提出相应的针对图异常检测的损失函数从而缓解图异常检测中所面临的这些问题。
基于Spectral-GNN的方法
Rethinking Graph Neural Networks for Anomaly Detection(ICML 22’)
Link:https://arxiv.org/pdf/2205.15508
- 在本文中,作者通过谱图分析,发现了在图数据的异常检测中,异常节点在傅里叶变换到频域之后,随着异常节点的增多,其对应频率值会出现“右移”的现象,并且基于这个现象,在小波理论上进一步改进了滤波基,提出了相对应的beta-wavenet: BWGNN.
Yelp-Chi 和 Amazon 数据集基于CogDL的baseline Results:
YelpChi (40% Training) | Amazon (40% Training) | |||||
---|---|---|---|---|---|---|
Methods | Test MacroF1 | Test AUC | Methods | Test MacroF1 | Test AUC | |
SIGN | 0.7232 | 0.8543 | SIGN | 0.9179 | 0.9687 | |
SAGN | 0.7114 | 0.8431 | SAGN | 0.9020 | 0.9613 | |
GraphSAGE | 0.6620 | 0.7903 | GraphSAGE | 0.8213 | 0.8759 | |
GCN | 0.6012 | 0.6886 | GCN | 0.7674 | 0.8629 | |
GIN | 0.5965 | 0.6883 | GIN | 0.7565 | 0.8583 | |
MLP | 0.5735 | 0.6687 | MLP | 0.7935 | 0.8987 | |
SGC | 0.5219 | 0.5853 | SGC | 0.7148 | 0.8652 | |
Latest work | ||||||
BWGNN(ICLM22’) | 0.7696 | 0.9054 | BWGNN | 0.9229 | 0.9806 | |
H2-Fdetector(WWW22’) | 0.6944 | 0.8869 | H2-Fdetector | 0.8320 | 0.9689 |