Do Transformers Really Perform Bad for Graph Representation?

emforce·2022년 8월 26일
0

Abstract

트랜스포머 아키텍처는 자연어 처리 및 컴퓨터 비전과 같은 많은 영역에서 지배적인 선택이 되었다. 그러나 주류 GNN 변형과 비교하여 그래프 수준 예측의 인기 리더보드에서 경쟁력 있는 성능을 달성하지 못했다. 따라서 트랜스포머가 그래프 표현 학습에서 어떻게 잘 수행할 수 있을지는 미스터리로 남아 있다. 본 논문에서는 표준 트랜스포머 아키텍처를 기반으로 구축되었으며 광범위한 그래프 표현 학습 과제, 특히 최근 OGB 대규모 챌린지에서 우수한 결과를 얻을 수 있는 Graphormer를 제시하여 이러한 미스터리를 해결하였다. 그래프에서 트랜스포머를 활용하는 우리의 핵심 통찰력은 그래프의 구조 정보를 모델에 효과적으로 인코딩해야 하는 필요성이다. 이를 위해, 우리는 Graphormer가 그래프 구조 데이터를 더 잘 모델링하는 데 도움이 되는 간단하지만 효과적인 몇 가지 구조 인코딩 방법을 제안한다. 게다가, 우리는 Graphormer의 표현력을 수학적으로 특성화하고 그래프의 구조 정보를 인코딩하는 우리의 방법으로 많은 인기 있는 GNN 변형이 Graphormer의 특수한 경우로 다루어질 수 있음을 보여준다.

1. Introduction

Transformer [49]는 자연어 [11, 35, 6] 및 음성 [17]과 같은 순차적 데이터를 모델링하는 데 있어 가장 강력한 신경망으로 잘 알려져 있다. Transformer를 기반으로 구축된 모델 변형은 컴퓨터 비전 [12, 36]과 프로그래밍 언어에서도 우수한 성능을 보여주었다. 그러나 우리가 아는 한, Transformer는 여전히 공개 그래프 표현 리더보드에서 사실상의 표준이 아니었다. 트랜스포머를 그래프 영역으로 활용하는 많은 시도가 있지만, 효과적인 유일한 방법은 소프트맥스 주의에 의해 고전적인 GNN 변형에서 일부 핵심 모듈(예: 기능 집계)을 교체하는 것이다. 따라서 Transformer 아키텍처가 그래프를 모델링하는 데 적합한지 여부와 그래프 표현 학습에서 어떻게 작동하도록 할지는 여전히 미해결 문제이다.

본 논문에서는 표준 트랜스포머에 직접 구축된 Graphormer를 개발하여 긍정적인 답변을 제공하며, 매우 최근의 Open Graph Benchmark Large-Scale Challenge(OGB-LSC) [21] 및 여러 인기 리더보드(예: OGB [22]), 등 광범위한 그래프 레벨 예측 작업에서 최첨단 성능을 달성한다. 벤치마킹-GNN [14]). Transformer는 원래 시퀀스 모델링을 위해 설계되었습니다. 그래프에서 힘을 활용하려면 그래프의 구조 정보를 모델에 적절히 통합하는 것이 핵심이라고 믿는다. 각 노드 i에 대해 자기 주의는 노드에 반사된 그래프의 구조 정보와 노드 쌍 간의 관계를 고려하지 않고 i와 다른 노드 사이의 의미론적 유사성만 계산한다는 점에 유의한다. Graphormer는 이러한 정보를 활용하기 위해 몇 가지 효과적인 구조 인코딩 방법을 통합한다.먼저 그래프에서 노드 중요성을 포착하기 위해 그래프머의 중심성 인코딩을 제안한다.그래프에서 노드마다 중요도가 다를 수 있습니다. 예를 들어, 소셜 네트워크에서 연예인은 대다수의 웹 사용자보다 더 영향력이 있는 것으로 간주됩니다. 그러나 이러한 정보는 주로 노드 의미 특징을 사용하여 유사성을 계산하기 때문에 자기 주의 모듈에 반영되지 않는다. 문제를 해결하기 위해, 우리는 그래프머에서 노드 중심성을 인코딩할 것을 제안한다.특히 학습 가능한 벡터가 각 노드에 그 정도에 따라 할당되고 입력 계층의 노드 기능에 추가되는 중심성 인코딩에 대한 정도 중심성을 활용한다.경험적 연구에 따르면 간단한 중심성 인코딩은 그래프 데이터를 모델링하는 데 Transformer에 효과적이다.

둘째, 노드 간의 구조적 관계를 포착하기 위해 그래프머의 새로운 공간 인코딩을 제안한다. 그래프 구조 데이터를 다른 구조화된 데이터(예: 언어, 이미지)와 구별하는 주목할 만한 기하학적 특성은 그래프를 내장할 표준 그리드가 존재하지 않는다는 것이다.사실, 노드는 비유클리드 공간에만 있을 수 있고 가장자리로 연결된다. 이러한 구조 정보를 모델링하기 위해 각 노드 쌍에 대해 공간 관계를 기반으로 학습 가능한 임베딩을 할당한다.문헌의 여러 측정은 공간 관계를 모델링하는 데 활용될 수 있다. 일반적인 목적을 위해, 우리는 시연으로 두 노드 사이의 최단 경로의 거리를 사용하며, 이는 소프트맥스 주의에서 바이어스 항으로 인코딩되고 모델이 그래프에서 공간 의존성을 정확하게 포착하는 데 도움이 된다. 게다가, 때때로 분자 그래프에서 두 원자 사이의 결합 유형과 같은 가장자리 특징에 포함된 추가적인 공간 정보가 있다. 우리는 그러한 신호를 트랜스포머 레이어로 추가로 가져오기 위해 새로운 에지 인코딩 방법을 설계한다. 구체적으로 말하면, 각 노드 쌍에 대해 에지 기능과 최단 경로를 따라 학습 가능한 임베딩의 도트 곱의 평균을 계산한 다음 주의 모듈에 사용한다. 이러한 인코딩을 갖춘 Graphormer는 노드 쌍에 대한 관계를 더 잘 모델링하고 그래프를 나타낼 수 있다.위에서 제안된 인코딩을 사용함으로써, 우리는 많은 인기 있는 GNN 변형이 단지 특별한 경우일 뿐이기 때문에 Graphormer가 강한 표현력을 가지고 있음을 수학적으로 보여준다. 모델의 큰 용량은 실제로 광범위한 작업에서 최첨단 성능을 발휘하게 한다. 최근 열린 그래프 벤치마크 대규모 챌린지(OGB-LSC) [21]의 대규모 양자 화학 회귀 데이터 세트 3에서 Graphormer는 상대 오류 측면에서 대부분의 주류 GNN 변형을 10% 포인트 이상 능가한다. 그래프 표현 학습의 다른 인기 리더보드(예: MolHIV, MolPCBA, ZINK) [22, 14]에서도 Graphormer는 이전의 최고의 결과를 능가하여 Transformer 아키텍처의 잠재력과 적응성을 입증한다.

0개의 댓글