Global Self-Attention as a Replacement for Graph Convolution

emforce·2022년 8월 26일
0

ABSTRACT

에지 채널이라고 하는 쌍별 구조 정보를 위한 전용 경로를 추가하여 범용 그래프 학습을 위한 변압기 신경망 아키텍처의 확장을 제안한다. 우리가 에지 증강 그래프 변환기(EGT)라고 부르는 결과 프레임워크는 그래프 구조 데이터에 대한 효과적인 학습에 중요한 임의 형식의 구조 정보를 직접 수용, 처리 및 출력할 수 있다. 우리 모델은 정적 국소 컨볼루션 집계보다는 전역 자기 주의를 집계 메커니즘으로 독점적으로 사용한다. 이를 통해 노드 간에 제한되지 않은 장거리 동적 상호 작용이 가능하다.더욱이, 에지 채널은 구조 정보가 계층에서 계층으로 진화할 수 있도록 하며, 에지/링크에 대한 예측 작업은 이러한 채널의 출력 임베딩에서 직접 수행될 수 있다. 우리는 벤치마크 데이터 세트에 대한 광범위한 그래프 학습 실험에서 EGT의 성능을 검증하는데, 이 실험에서 EGT는 컨볼루션/메시지 전달 그래프 신경망보다 성능이 뛰어나다. EGT는 380만 개의 분자 그래프를 포함하는 데이터 세트에서 양자 화학적 회귀 작업에 대한 새로운 최첨단 기술을 설정한다. 우리의 연구 결과는 글로벌 자기 주의 기반 집계가 범용 그래프 학습을 위한 그래프 컨볼루션의 유연하고 적응적이며 효과적인 대체 역할을 할 수 있음을 나타낸다. 따라서, 컨볼루션 로컬 이웃 집계는 필수적인 유도 편향은 아니다.

1 INTRODUCTION

그래프 구조 데이터는 통신 네트워크, 분자 구조, 인용 네트워크, 지식 기반 및 소셜 네트워크와 같은 다양한 영역에서 어디서나 볼 수 있다. 그래프의 구조 정보의 유연성 때문에, 그것들은 매우 광범위한 소스에서 유래한 데이터의 작고 직관적인 표현을 위한 강력한 도구이다. 그러나 이러한 유연성은 노드의 상호 연결성의 임의적인 특성으로 인해 그래프 구조 데이터로부터 처리 및 학습하는 데 추가되는 복잡성을 초래한다. 최근 그래프에 대한 심층 표현 학습을 위한 해결 방법은 그래프 신경망(GNN)이다[17, 34].가장 일반적으로 사용되는 GNN은 그래프의 각 노드가 각 레이어의 인접 노드 [24, 42]를 기반으로 상태를 업데이트하는 컨볼루션 패턴을 따른다. 반면에, 순수한 자기 주의 기반 변압기 아키텍처[38]는 특히 대규모 학습에서 새로운 최첨단 기술이 되기 위해 순차적(예: 텍스트) 및 그리드 유사(이미지) 데이터와 같이 보다 규칙적으로 배열된 데이터를 위한 컨볼루션 신경망을 대체했다. 변압기는 자연어 처리 분야에서 사실상의 표준이 되었으며, 언어 이해, 기계 번역 및 질문 답변과 같은 광범위한 작업에서 큰 성공을 거두었다. 변압기의 성공은 오디오[8, 28]와 이미지[7, 13]와 같은 서로 다른 영역에서 그리고 다른 (분류/생성, 감독/감독되지 않은) 작업에서도 다른 형태의 비정형 데이터로 번역되었다.

변압기는 몇 가지 중요한 면에서 컨볼루션 신경망과 다르다. 컨볼루션 레이어는 각 위치 주변의 지역화된 창을 집계하여 해당 위치에 대한 출력을 생성한다.창에 적용되는 가중치는 입력과 독립적이며, 따라서 정적 가중치라고 할 수 있다. 또한, 슬라이딩/이동 창은 입력 데이터의 구조, 즉 순차적 또는 격자형 패턴의 위치를 직접 따릅니다. 이것은 신호 처리의 필터링 프로세스에서 직접 영감을 받아 데이터의 특성과 처리 방법을 기반으로 하는 사전 가정이다. 우리는 이 가정을 컨볼루션 유도 편향이라고 부른다. 반면에, 변압기 인코더 층의 경우, 데이터의 내부 배열은 그것이 어떻게 처리되는지를 직접적으로 지시하지 않는다. 주의 가중치는 각 위치에서 형성된 쿼리와 키를 기반으로 형성되며, 이는 다시 각 위치가 다른 위치를 집계하는 방법을 지시한다. 따라서 집계 패턴은 전역적이고 입력에 의존적이며, 즉 동적입니다. 위치 정보는 위치 인코딩의 형태로 네트워크에 대한 입력으로 처리된다. 그들이 없을 때, 변압기 인코더는 순열 등가이며 입력을 멀티셋으로 취급한다. 정보는 데이터의 내부 배치에 구애받지 않는 글로벌 자기 주의 메커니즘을 통해서만 서로 다른 위치 간에 전파된다. 전역 자기 주의의 이러한 특성으로 인해 데이터의 먼 점은 가까운 점만큼 효율적으로 상호 작용할 수 있습니다. 또한 네트워크는 미리 결정된 패턴에 구속되지 않고 훈련 과정 중에 적절한 집계 패턴을 형성하는 방법을 학습한다.

적절한 위치 인코딩 체계를 채택하여 텍스트 및 이미지와 같은 정규 구조 데이터에 트랜스포머 아키텍처를 채택하는 것은 종종 간단하지만, 그래프에서 구조의 매우 임의적인 특성은 위치 인코딩 측면에서만 각 노드의 위치를 표현하기 어렵게 한다.또한 노드 임베딩 측면에서 에지 기능이 어떻게 통합될 수 있는지도 명확하지 않다. 그래프 구조 데이터의 경우, 에지/구조 정보는 노드 정보만큼 중요할 수 있으므로, 우리는 네트워크가 노드 임베딩과 마찬가지로 이 정보를 계층적으로 처리할 것으로 예상해야 한다. 이를 용이하게 하기 위해, 우리는 구조 정보를 활용할 수 있는 경로인 변압기에 새로운 추가, 즉 잔류 에지 채널을 도입한다. 이것은 네트워크가 그래프 구조 데이터를 직접 처리할 수 있다는 점에서 변압기 프레임워크에 대한 간단하면서도 강력한 확장이다.이러한 추가는 에지 특징을 포함한 임의의 형태의 구조 정보의 입력을 용이하게 하고, 유향 그래프와 가중 그래프와 같은 다양한 유형의 그래프를 체계적으로 처리할 수 있다는 점에서 매우 일반적이다. 우리의 프레임워크는 비슷한 수의 매개 변수를 유지하면서 감독된 벤치마킹 작업에서 중간에서 큰 크기의 데이터 세트에서 널리 사용되는 그래프 컨볼루션 네트워크의 결과를 초과할 수 있다. 그러나 우리의 아키텍처는 특징 집계 프로세스에 컨볼루션 편향과 같은 강력한 유도 편향을 부과하지 않는다는 점에서 컨볼루션 네트워크에서 크게 벗어난다. 우리는 구조 정보를 고정된 패턴으로 제한하기보다는 구조 정보를 가장 잘 사용하는 방법을 배우기 위해 글로벌 자기 주의 메커니즘에만 의존한다.또한, 구조 정보는 계층들에 걸쳐 진화할 수 있고 네트워크는 잠재적으로 새로운 구조를 형성할 수 있다. 링크 예측 또는 에지 분류와 같은 그래프의 구조에 대한 모든 예측은 에지 채널의 출력에서 직접 수행할 수 있습니다.그러나 이러한 채널은 노드 수와 관련하여 글로벌 자기 주의의 2차 계산 및 메모리 복잡성을 증가시켜 우리를 적당히 큰 그래프에 제한한다.에지 채널 외에도, 우리는 프레임워크에 대한 게이트 집계[4], 학위 스케일러[12] 및 위치 인코딩[15]과 같은 GNN 개념을 일반화한다.우리의 실험 결과는 충분한 데이터와 제안된 에지 채널을 통해 모델이 글로벌 셀프 어텐션을 활용하여 당면한 작업에 대한 최상의 집계 패턴을 학습할 수 있음을 보여준다.따라서, 우리의 결과는 각 노드가 (인접, 거리, 친밀성 등에 기반하여) 가장 가까운 이웃을 집계하는 것으로 제한되는 고정 컨볼루션 집계 패턴을 따르는 것이 필수적인 귀납적 편향이 아님을 나타낸다. 글로벌 셀프 어텐션의 유연성을 통해 네트워크는 그림 1과 같이 입력 그래프의 먼 부분을 단 한 단계 만에 집계하는 것을 배울 수 있다. 이 패턴은 설계에 의해 부과되는 것이 아니라 학습되기 때문에 모델의 표현력을 증가시킨다. 또한 이 집계 패턴은 동적이며 각 특정 입력 그래프에 적응할 수 있습니다. 이미지와 같은 비정형 데이터에 대해서도 유사한 결과가 보고되었다.일부 최근 연구는 그래프 컨볼루션의 표현성을 향상시켜 더 나은 일반화 또는 성능을 위한 수단으로 전역 자기 주의를 보고하였다[31, 40]. 매우 최근에, Graphormer[43]는 특수 인코딩으로 에지를 통합함으로써 분자 그래프에서 그래프 수준 예측 작업을 잘 수행했다. 그러나 에지 정보를 직접 처리하지 않으므로 에지 관련 예측 작업으로 잘 일반화되지는 않는다. 에지 채널을 통합함으로써, 우리는 모든 유형의 그래프에서 노드 수준, 링크(엣지) 수준 및 그래프 수준 예측을 위한 그래프 컨볼루션의 직접적이고 일반적인 대체물로 전역 자기 주의를 제안하는 첫 번째이다.

0개의 댓글