

연구자들의 경우에 다양한 이유로 자신들의 논리를 펼치기 위해 다른 논문들을 인용하게 된다.
-Transformer 모델에서 사용되는 핵심 구성요소
-입력 시퀸스 내의 각 요소(단어)가 다른 모든 요소들과의 관계를 고려하여 정보를 처리할 수 있게 해줌
Query (질의) : 현재 토큰이 다른 토큰과 얼마나 관련되어 있는지 묻는 역할
Key (키) : 다른 토큰들이 가진 정보의 특징
Value (값) : 실제 전달되는 정보

스케일된 점곱 (Scaled Dot-Product)
-각 토큰의 Query와 다른 토큰들의 key사이의 내적 (dot product)를 계산한 후, 이 값을 key벡터 차원의 제곱근으로 나누어 안정적인 학습을 도움
Softmax 함수
-계산된 유사도 값을 확률분포로 변환하여 중요한 토큰에 더 높은 가중치 부여
Multi-head attention
-Self attention을 여러 'head'로 나누어 동시에 다양한 관점에서 관계를 학습
--> 각 head는 서로 다른 부분공간에서의 관계를 학습하고, 이후 이들을 다시 결합하여 더 풍부한 표현을 생성
장점
-병렬처리 가능성: RNN과 달리 순차적 처리가 필요없으므로 학습 및 추론속도가 빠름
-긴 거리 관계 포착: 시퀸스 내에서 먼 거리에 있는 단어들간의 관계도 효과적으로 학습할 수 있음

기존 연구들: frequency-based / content-based approaches 중심

해당 그림을 해석해보면, 각 노드는 각 논문에 해당된다. 만약에 인용된 장소가 다르다면, 1. introduction(서론)
4. Experiment(실험) 즉, 어디서 인용 되었는지에 따라서 그에 대응하는 의미또한 달라진다. 이게 바로 citation embedding이다.
해당논문에서는 인용 맥락을 citation network상에서 고려한 embedding method를 제안한다. self-attention 메카니즘에 기반한 전통적인 GCN 모델보다 더 적은 수의 layer들을 사용하여 global citation features들을 표현할 수 있는 장점이 있다.

--> 해당 논문에 따르면 graph-transformer는 인용된 논문들간의 관계와 영향을 고려하여 pre-training된 citation vectors을 활용한다.

해당 부분이 Contectual citation embdding model에 대해서 자세히 설명해준다.
해당 모델을 3가지 특징이 있다.
1. 인용된 컨텍스트를 추출
2. citation embedding의 적용
3. graph-transformer 기반의 encoder


여기서 Weisfeiler-Lehman (WL) algorithm 에 대해 설명한다 (6)번 공식을 확인하면 알 수 있다.
해당 알고리즘은 그래프 동형성(Graph Isomorphism)을 판별하거나 그래프의 구조적 특징을 추출하기 위해 사용된다.
주로, color refinement 기법으로 불리며, 노드의 라벨(색깔)을 반복적으로 업데이트하여 그래프의 구조적 정보를 세밀하게 반영한다.
여기서 말하는 그래프 동형성을 판별한다는 의미는 서로다른 두 그래프가 구조적으로 동일한지 판별하는 데 사용된다는 의미이다.

해당 논문의 결론은 다음과 같다.
서로 다른 논문의 섹션마다 샘플링을하여 두어 인용의 문맥을 반영하였다.
각 논문마다 인용하는 목적은 다르고 매우 동적이다. 인용의 의미는 시간이 흐름에 따라 변화한다. 또한 저명한 저널이나 글을 쓴 연구자가 누구냐에 따라서 인용 수가 달라진다.