A Generalization of Transformer Networks to Graphs

emforce·2022년 8월 26일
0

Abstract

임의 그래프에 대한 변압기 신경망 아키텍처의 일반화를 제안한다. 원래의 변압기는 자연어 처리(NLP)용으로 설계되었으며, 이는 단어 사이의 모든 연결을 시퀀스로 나타내는 완전히 연결된 그래프에서 작동한다. 이러한 아키텍처는 그래프 연결 유도 편향을 활용하지 않으며, 그래프 토폴로지가 중요하며 노드 기능으로 인코딩되지 않은 경우 성능이 저하될 수 있다. 우리는 표준 모델과 비교하여 네 가지 새로운 특성을 가진 그래프 변압기를 소개한다. 첫째, 주의 메커니즘은 그래프의 각 노드에 대한 이웃 연결의 함수이다.둘째, 위치 인코딩은 NLP에서 자주 사용되는 사인파 위치 인코딩을 자연스럽게 일반화하는 라플라시안 고유 벡터로 표현된다. 셋째, 계층 정규화는 배치 정규화 계층으로 대체되어 더 빠른 훈련과 더 나은 일반화 성능을 제공한다. 마지막으로, 아키텍처는 에지 특징 표현으로 확장되며, 이는 화학(결합 유형) 또는 링크 예측(지식 그래프의 엔티티 관계) 작업에 중요할 수 있다. 그래프 벤치마크에 대한 수치 실험은 제안된 그래프 변압기 아키텍처의 성능을 보여준다. 이 작업은 선 그래프의 제한된 경우를 위해 설계된 원래 변압기와 임의 그래프에서 작동할 수 있는 그래프 신경망 사이의 격차를 좁힌다. 우리의 아키텍처는 단순하고 일반적이기 때문에, 우리는 그것이 변압기와 그래프를 고려하고자 하는 미래 응용 프로그램의 블랙박스로 사용될 수 있다고 믿는다.

1 Introduction

자연어 처리(NLP) 분야에서 현재 NLP의 문장과 같은 장기 순차 데이터 세트를 처리하기 위해 가장 성능이 우수한 신경망 아키텍처인 Transformer의 개발 이후 엄청난 성공을 거두었다.이것은 문장의 단어가 서로 연관되고 수신된 정보를 결합하여 추상적 특징 표현을 생성하는 주의 메커니즘을 사용하여 달성된다.그래프 신경망(GNN)에서 메시지 전달 패러다임(Gilmer et al. 2017)의 관점에서, 문장에서 다른 단어의 특징 정보를 결합하여 단어 특징 표현을 학습하는 이러한 과정은 대안으로 단어의 완전히 연결된 그래프에 적용된 GNN의 사례로 볼 수 있다(Joshi 2020). 트랜스포머 기반 모델은 여러 NLP 애플리케이션에서 최첨단 성능을 발휘했다(Devlin et al. 2018; Radford et al. 2018; Brown et al. 2020). 반면 그래프 신경망(GNN)은 그래프 데이터 세트에서 가장 효과적인 신경망 아키텍처로 나타났으며 지식 그래프(Schlichtkrull et al. 2018; Chamiet et al. 2020), 사회과학(Monti et al. 2019), 물리학(Cranmer et al. 2019; San)과 같은 광범위한 애플리케이션에서 상당한 성공을 거두었다.체즈-곤잘레즈 외. 2020) 등특히 GNN은 노드 및 에지에 대한 기능 표현을 학습하는 동안 주어진 임의 그래프 구조를 활용하며 결국 학습된 표현이 다운스트림 작업에 사용된다. 이 연구에서, 우리는 NLP 변압기의 핵심 설계 구성 요소를 임의의 그래프로 확장하는 개선된 Graph Transformer 버전(그림 1 참조)을 제시하기 위해 딥 러닝에서 이 두 활성 연구 영역의 수렴에서 유도 편향을 탐구한다.

예비로, 우리는 이기종 그래프, 시간 네트워크, 생성 모델링 등과 같은 전문 사례에 거의 초점을 맞춘 그래프 변압기(Li et al. 2019; Nguyen, Nguyen, Pung 2019; Zhang et al. 2020) 개발을 시도하는 가장 최근의 연구를 강조한다.(윤 외 2019; 쉬, 조시, 브레송 2019; 후 외.2020; 저우 외. 2020).Li et al. (2019)에서 제안된 모델은 글로벌 정보를 캡처할 목적으로 노드의 로컬 인접 노드 대신 모든 그래프 노드에 주의를 기울인다. 이는 그래프 데이터 세트에 대한 학습에 좋은 유도 편향임을 보여주는 희소성의 효율적인 이용을 제한한다. 글로벌 정보의 목적을 위해, 우리는 희소성과 지역적 맥락을 방치하는 대신 동일한 것을 통합하는 다른 방법이 있다고 주장한다. 예를 들어 그래프별 위치 특징(Zhang et al. 2020) 또는 노드 라플라시안 위치 고유 벡터(Belkin and Niyogi 2003; Dwivedi et al. 2020) 또는 상대적 학습 가능한 위치 정보(You, Ying 및 Leskovec 2019), 가상 노드(Li et al. 2015)의 사용 등이 있다. Zhang et al. (2020)은 원래 그래프 대신 모델에 전달할 고정 크기의 링크 없는 하위 그래프를 생성하는 하위 그래프 배치 방식을 사용하여 사전 훈련 및 병렬 학습에 중점을 둔 Graph-BERT를 제안한다. GraphBERT는 절대 노드 구조 및 상대 노드 위치 정보를 캡처하기 위해 여러 위치 인코딩 방식의 조합을 사용한다. 원본 그래프는 Graph-BERT에서 직접 사용되지 않으며 하위 그래프에는 노드 사이의 에지(즉, 링크리스)가 없기 때문에 제안된 위치 인코딩 조합은 원본 그래프 구조 정보를 노드에 유지하려고 시도한다. 우리는 4.1절의 본 논문에서 제시하는 모델과의 실험적 비교와 함께 Graph-BERT 위치 인코딩 체계에 대한 자세한 분석을 수행한다.

윤 외 연구진(2019)은 주어진 이기종 그래프를 메타 경로 기반 그래프로 변환한 다음 컨볼루션을 수행하는 목표를 가진 이기종 그래프를 학습하기 위해 그래프 트랜스포머 네트워크(GTN)를 개발했다. 특히, 주의 프레임워크의 사용 이면에 있는 그들의 초점은 생성된 메타 경로를 해석하는 것이다. 이종 정보 네트워크를 위해 개발된 또 다른 변압기 기반 접근 방식, 즉 Hu et al.(2020)의 이종 그래프 변압기(HGT)가 있다. 임의의 수의 노드와 에지 유형을 처리할 수 있는 능력 외에도, HGT는 중앙 노드와 메시지 전달 노드의 타임스탬프 차이를 기반으로 하는 상대적 시간 위치 인코딩의 형태로 이기종 그래프에서 정보 흐름의 역학을 캡처한다. 또한 Zhou et al.(2020)은 네트워크의 동적 정보로부터 직접 학습하여 시간 그래프를 생성하는 변압기 기반 생성 모델을 제안하였다. 응우옌, 응우옌, 펑(2019)에 제시된 아키텍처는 좌표 임베딩 기반 위치 인코딩 체계를 가진 임의의 동질 그래프에 대한 그래프 변압기를 개발하는 우리의 목표를 따라 다소 진행된다. 그러나 그들의 실험은 좌표 임베딩이 성능에서 보편적이지 않으며 모든 평가 중 몇 가지 비지도 학습 실험에서만 도움이 된다는 것을 보여준다.

1.2 Contributions

전반적으로, 우리는 NLP의 변압기 문헌에서 가장 생산적인 아이디어가 더 효율적인 방식으로 적용될 수 있다는 것을 발견하고 희소성과 위치 인코딩이 그래프 변압기 개발의 두 가지 핵심 측면이라고 가정한다. 특정 그래프 작업에 대한 최고의 성능 모델을 설계하는 것과 달리, 우리의 작업은 NLP와 GNN의 영역에서 아이디어를 함께 도출하는 일반적이고 경쟁력 있는 변환기 모델을 시도한다. 개요를 위해 이 논문은 다음과 같은 기여를 한다.• 임의 구조의 동종 그래프, 즉 Graph Transformer에 대한 변압기 네트워크의 일반화와 명시적 도메인 정보를 에지 기능으로 사용할 수 있는 에지 기능을 갖춘 Graph Transformer의 확장 버전을 제시한다.• 우리의 방법은 NLP 변압기 모델에서 위치 인코딩을 많이 사용하고 GNN에서 노드 위치 기능에 대한 최근 연구에서 영감을 받아 그래프 데이터 세트에 대해 라플라시안 고유 벡터를 사용하여 노드 위치 기능을 융합하는 우아한 방법을 포함한다. 문헌과의 비교는 임의의 균질 그래프에 대한 노드 위치 정보를 인코딩하는 기존 접근 방식보다 라플라시안 고유 벡터가 잘 배치되었음을 보여준다. • 우리의 실험은 제안된 모델이 기준 등방성 및 이방성 GNN을 능가한다는 것을 보여준다. 아키텍처는 주의와 그래프의 교차점에서 향후 연구를 위한 그래프 데이터 세트를 위한 간단하고 효과적인 Transformer 네트워크 기준선뿐만 아니라 더 나은 주의 기반 GNN 기준선으로 동시에 부상한다.

0개의 댓글