degree factor를 포함하여 연결이 많은 graph component들이 압도적인 영향을 미치지 않도록함
*graph-level task를 진행해야 할 경우 input graph에 다른 노드와의 connectivity없이 virtual [cls] node를 추가하거나, node-level representation을 sum/average 등으로 aggregation
3. Combination with Absolute Encoding
위의 structure aware self-attention에 추가로 absolute encoding을 추가하게 되면 postion-aware한 특성이 추가되어 기존의 정보를 보완하는 역할을 하게된다. 이러한 조합을 통해 성능향상을 확인할 수 있었다.
RandomWalk PE
Absolute PE만 사용할 경우 structural bias가 과도하게 발생하지 않아서 누개의 노드가 유사한 local structure를 갖고 있더라도 비슷한 node representation이 생성되는것을 보장하기 어렵다!
→ Structural, positional sign으로 주로 사용되는 distance나 Laplacian-based positional representation이 노드들 사이의 structural simialrity를 포함하지 않기때문
📌 Structural aware attenrion은 inductive bias가 더 강하더라도 노드의 strucutral similarity를 측정하는데 적합하여 유사한 subgraph구조를 가진 노드들이 비슷한 embedding을 갖게하고, expressivity가 향상되어 좋은 성능을 보임
4. Expressivity Analysis
SAT에서는 각노드를 중심으로하는 k-subgraph GNN extractor가 도입되어 적어도 subgraph representation만큼은 expressive하다는 것을 보장
4. Experiment
Experiment setup
Dataset
ZINC
CLUSTER
PATTERN
OGBG-PPA
OGBG-CODE2
Baseline
GNNs
GCN
GraphSAGE
GAT
GIN
PNA
Deeper GCN
ExpC
Transformers
Original Transformer with RWPE
Graph Transformer
SAN
Graphormer
GraphTrans
Results
Table1. SAT와 graph regression, classification task의 sota모델과 비교
ZINC dataset의 경우 작을수록 더 좋은 성능을 의미하는 MAE(Mean Absolute Error), CLUSTER와 PATTERN의 경우 높을수록 더 좋은 성능을 의미하는 Acurracy가 평가지표로 사용되었음.
Table2. SAT와 OGB데이터셋에서의 sota모델 비교
OGB dataset의 경우 높을수록 더 좋은 성능을 의미하는 Acurracy, F1 score가 평가지표로 사용되었음.
Table3. structure extractor로 사용한 GNN과의 성능비교. Sparse GNN을 모든 경우에서 outperform하는 것을 확인할 수 있음
Fig3. ZINC데이터셋에 SAT의 다양한 variant실험
평가지표 : MAE(더 작은 지표가 좋은 성능을 의미)
structure extractor에서의 k의 영향 비교
k=0일때, Absolute encoding만을 활용하는 vanilla transformer랑 같다고 볼 수 있음
k=3일때, optimal performance를 보임을 확인
k=4를 넘어서면 성능이 악화되는것을 확인할 수 있었는데, 이는 GNN에서의 알려진 사실인 더 적은 수의 layer를 가지는 network가 더 좋은 성능을 보이는 것과 마찬가지라고 할 수 있음
Absolute encoding의 영향 비교
RWPE vs. Laplacian PE
Structure-aware attention의 도입으로 인한 성능향상보다는 그 정도가 낮았지만, RWPE를 도입할 경우 성능이 더 좋은것으로 보았을 때, 두가지 encoding이 상호보완적인 역할을 한다고 해석할 수 있음
Readout method의 영향 비교
node-level representation을 aggregate할 때 사용하기 위한 readoutd으로 mean과 sum을 비교하였음
추가로 [CLS] 토큰을 통해 graph-level 정보를 pooling하는 방법도 같이 비교하여보았음
GNN에서는 readout method의 영향이 매우 컸지만 SAT에서는 매우 약한 영향만을 확인함.
5. Conclusion
Strong Points.
structural info를 graphormer에서처럼 휴리스틱하게 shortest path distance(SPD)를 활용하지 않고, 그러한 local info를 잘 배우는 GNN으로 대체한 점이 novel하다고 할 수 있음
Transformer의 global receptive field 특성과 GNN의 local structure특성이 상호보완적
encoding에 있어서도
RWPE를 통한 positional encoding
k-subtree/subgraph GNN을 통한 structure-aware attention
두가지가 상호보완적인 역할을 함
→ 각자가 잘 배우는 특성을 고려하여 상호보완적인 두가지 방법론을 잘 섞어서 좋은 성능을 내었고, 그 이유가 납득하기 쉬움
Weak Points.
그래프데이터에 Transformer를 적용한 다른 논문의 architecture인 Graphormer에서 사용한 SPD만의 장점 : 직접적으로 연결되어있지 않은, 아주 멀리에 위치한 노드쌍이더라도 shortest path상의 weighted edge aggregation을 하는 만큼 그러한 특성 반영되면 좋은 그래프 구조/ 데이터셋에서는 SAT가 capture하지 못하는 부분이 있을 것
Author Information
Dexiong Chen
Department of Biosystems Science and Engineering, ETH Zurich, Switzerland.
SIB Swiss Institute of Bioinformatics, Switzerland.
Leslie O'Bray
Department of Biosystems Science and Engineering, ETH Zurich, Switzerland.
SIB Swiss Institute of Bioinformatics, Switzerland.
Karsten Borgwardt
Department of Biosystems Science and Engineering, ETH Zurich, Switzerland.
SIB Swiss Institute of Bioinformatics, Switzerland.