GAT에서는 노드 간의 가중치도 학습의 대상이 된다
실제 그래프에서는 이웃 별로 미치는 영향이 다를 수 있음을 고려하여 가중치를 학습하기 위해 Self-Attention을 사용한다
노드 간의 가중치는 다음과 같은 과정으로 산출된다
이 때, 가중치를 하나만 사용할필요는 없다
여러개의 Attention 학습의 결과를 concat 하여 사용할 수 있으며, 이를 '멀티헤드 어텐션(Mutli-head Attention)'이라 부른다
가중치 k 개를 연결하여 최종 임베딩을 산출하는 그림이다
그래프 표현 학습, 혹은 그래프 임베딩이란 그래프 전체를 벡터의 형태로 표현하는 것을 의미한다
그리고 그래프 풀링이란 노드 임베딩들로부터 그래프 임베딩을 얻는 과정이다
평균 등의 단순한 방법보다 그래프 구조를 고려한 방법을 사용하는 경우 더 높은 성능을 얻는다고 한다
지나친 획일화(Over-smoothing)문제란 그래프 신경망의 층의 수가 증가하면서 노드의 임베딩이 서로 유사해지는 현상을 의미
잔차항(Residual)을 넣는 것, 즉 이전 층의 임베딩을 한번 더 더해주는것만으로는 효과가 제한적이다
이 문제의 대응으로 JK 네트워크는 마지막 층이 임베딩 뿐 아니라, 모든 층의 임베딩을 함께 사용한다
AFPNP는 0번째 층을 제외하고는 신경망 없이 집계 함수를 단순화하였다