[논문] Heterogeneous Graph Attention Network (HAN)

JaeGwon-Lee·2024년 1월 30일

논문 리뷰

목록 보기
1/2

📄 Paper

Heterogeneous Graph Attention Network   [arxiv]

Xiao Wang, et al.    WWW 19


📝 Key Point

  • Heterogeneous Graph에 GNN을 도입한 대표 논문
  • GNN method와 Side Information 활용 가능
  • Node-Level Aggregation과 Semantic-Level Aggregation에 Attention 활용

1. Background

1.1 Heterogeneous Graph

Homogeneous Graph : Node의 속성이 1개   ex) 소셜 네트워크

Bipartite Graph : Node의 속성이 2개   ex) User-Item 그래프

Heterogeneous Graph : Node의 속성이 여러 개
             ex) side information을 포함한 User-Item 그래프

1.2 Meta-path

  • 그래프 내에서 노드 타입 간의 관계를 표현하는 시퀀스
    ex) Movie - Actor - Movie / Movie - Director - Movie
  • 한계점
    • Meta-path를 정의하는 데에 도메인 지식이 필요함
    • Meta-path를 찾고 추출하는 데에 시간이 오래 걸림
    • Meta-path를 설정할 때 사용되지 않은 정보는 손실됨
  • 이러한 한계점이 있음에도 Heterogeneous Graph를 학습하는 데에 Meta-path 방법이 효과적
  • 일반적으로 길이가 3 또는 5인 Meta-path 사용

1.3 Heterogeneous Network Embedding

1.4 GAT

  • 기존의 GCN은 이웃의 정보를 전파할 때 모든 이웃에 대한 가중치를 동일하게 설정
  • 이웃마다 중요도가 다를 것이라고 판단 → 어떤 이웃이 더 중요한지 학습
  • 이웃의 정보를 전파할 때 Attention을 가중치로 활용


2. HAN

💡 Meta-path 종류 별 Sub Graph 생성 💡 Node-Level Aggregation → Semantic-Level Aggregation

Node-Level Attention : 노드와 Meta-path 기반 이웃 간의 중요도를 학습하는 것이 목표
Semantic-Level Attention : 서로 다른 Meta-path의 중요성을 학습하는 것이 목표

  • Node 타입에 따라 각각 Aggregation
  • Node 타입에 따라 선형 변환을 통해 Node들을 동일한 공간으로 맵핑
  • Meta-path 별로 Sub Graph 생성
  • Sub Graph에 Attention을 적용하여 통합

Process of HAN


3. Experiments

3.1 Node Classification

3.2 Node Clustering

3.3 Example

P831 : Xintao Wu, Daniel Barbara, Yong Ye. Screening and Interpreting Multi-item Associa-tions Based on Log-linear Modeling, KDD’03
P699 : Xintao Wu, Jianpin Fan, Kalpathi Subramanian. B-EM: a classifier incorporatingbootstrap with EM approach for data mining, KDD’02
P133 : Daniel Barbara, Carlotta Domeniconi, James P. Rogers. Detecting outliers using trans-duction and statistical testing, KDD’06
P2384 : Walid G. Aref, Daniel Barbara, Padmavathi Vallabhaneni. The Handwritten Trie:Indexing Electronic Ink, SIGMOD’95
P2328 : Daniel Barbara, Tomasz Imielinski. Sleepers and Workaholics: Caching Strategies inMobile Environments, VLDB’95
P1973 : Hector Garcia-Holina, Daniel Barbara. The cost of data replication, SIGCOMM’81

ACM 데이터셋에서 P831 논문과 다른 논문들 사이의 Attention 값을 나타냈다. 색깔은 분야를 의미하고, 동일한 분야, 저자, 학회를 공유하는 논문들을 비교하였다. 실험 결과를 통해 분야, 저자, 학회가 유사할수록 아이템의 Attention 값이 더 높은 경향을 보인다는 사실을 확인할 수 있다.

3.4 Visualization

DBLP 데이터셋에서 연구 분야에 따른 저자의 임베딩을 t-SNE를 통해 시각화하였다.
GCN과 GAT는 homogeneous graph로 학습하여 같은 분야끼리 제대로 모이지 못하는 모습이고, metapath2vec은 heterogeneous graph를 학습하여 같은 분야끼리 잘 모여있지만 하나의 Meta-path만을 고려할 수 있기 때문에 경계가 흐릿하다.
HAN은 다중 meta-path를 통해 heterogeneous graph를 학습하여 같은 분야끼리 잘 모이고, 다른 분야를 분리하는 경계가 비교적 명확하다.


4. PyG

GNN 모델을 쉽게 활용할 수 있도록 구축된 PyTorch Geometric 라이브러리에서 HAN 모델을 제공하고있다.

from torch_geometric.nn import HANConv

Document

https://pytorch-geometric.readthedocs.io/en/latest/generated/torch_geometric.nn.conv.HANConv.html#torch_geometric.nn.conv.HANConv


5. References

https://www.youtube.com/watch?v=zj_k_8dXs7o

https://myeonghak.github.io/recommender%20systems/RecSys-Heterogeneous-Graph-Attention-Networks-paper-review

https://velog.io/@hwanii_00/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-Heterogeneous-Graph-Attention-Network

0개의 댓글