Xiao Wang, et al. WWW 19
Homogeneous Graph : Node의 속성이 1개 ex) 소셜 네트워크
Bipartite Graph : Node의 속성이 2개 ex) User-Item 그래프
Heterogeneous Graph : Node의 속성이 여러 개
ex) side information을 포함한 User-Item 그래프
Node-Level Attention : 노드와 Meta-path 기반 이웃 간의 중요도를 학습하는 것이 목표
Semantic-Level Attention : 서로 다른 Meta-path의 중요성을 학습하는 것이 목표
P831 : Xintao Wu, Daniel Barbara, Yong Ye. Screening and Interpreting Multi-item Associa-tions Based on Log-linear Modeling, KDD’03
P699 : Xintao Wu, Jianpin Fan, Kalpathi Subramanian. B-EM: a classifier incorporatingbootstrap with EM approach for data mining, KDD’02
P133 : Daniel Barbara, Carlotta Domeniconi, James P. Rogers. Detecting outliers using trans-duction and statistical testing, KDD’06
P2384 : Walid G. Aref, Daniel Barbara, Padmavathi Vallabhaneni. The Handwritten Trie:Indexing Electronic Ink, SIGMOD’95
P2328 : Daniel Barbara, Tomasz Imielinski. Sleepers and Workaholics: Caching Strategies inMobile Environments, VLDB’95
P1973 : Hector Garcia-Holina, Daniel Barbara. The cost of data replication, SIGCOMM’81
ACM 데이터셋에서 P831 논문과 다른 논문들 사이의 Attention 값을 나타냈다. 색깔은 분야를 의미하고, 동일한 분야, 저자, 학회를 공유하는 논문들을 비교하였다. 실험 결과를 통해 분야, 저자, 학회가 유사할수록 아이템의 Attention 값이 더 높은 경향을 보인다는 사실을 확인할 수 있다.
DBLP 데이터셋에서 연구 분야에 따른 저자의 임베딩을 t-SNE를 통해 시각화하였다.
GCN과 GAT는 homogeneous graph로 학습하여 같은 분야끼리 제대로 모이지 못하는 모습이고, metapath2vec은 heterogeneous graph를 학습하여 같은 분야끼리 잘 모여있지만 하나의 Meta-path만을 고려할 수 있기 때문에 경계가 흐릿하다.
HAN은 다중 meta-path를 통해 heterogeneous graph를 학습하여 같은 분야끼리 잘 모이고, 다른 분야를 분리하는 경계가 비교적 명확하다.
GNN 모델을 쉽게 활용할 수 있도록 구축된 PyTorch Geometric 라이브러리에서 HAN 모델을 제공하고있다.
from torch_geometric.nn import HANConv