현재 연구들은 GNN의 세부적인 구조적 디자인을 제안하고 평가하는 데에만 초점을 둔다. 또한 GNN 디자인들은 주로 단일한 task에 전문화되어 있고 새로운 task 또는 데이터셋에 대해 최상의 GNN 디자인을 빠르게 찾는 방법에 대한 연구가 없다.
(1) 일반적인 GNN design space
(2) 유사도 메트릭이 포함된 GNN task space
(3) design space 평가 방법 → 많은 양의 모델-task 결합 중에서 인사이트를 끌어낼 수 있음.
GCN, GraphSAGE, GAT를 포함한 많은 GNN 구조들이 개발되었고 많은 곳에서 이들이 적용되고 있다. (SNS, 화학, 생물학 등) 그러나 여러 이슈들이 나타나면서 GNN의 추후 발전을 막음.

intra-layer design, inter-layer design, learning configuration을 포함하고 있는 일반적인 디자인 공간. GNN 모델 개발에 필요한 주요 구조 디자인 요소들을 포함하고 있다. 12개의 디자인 차원이 있고 315,000개의 디자인들을 만들 수 있다. design space를 제안하는 것뿐만 아니라 design space에 집중하는 것이 GNN 연구 발전에 어떻게 도움이 되는지를 보여줄 예정.

다른 task 간의 관계를 특정짓기 위해 task 유사도 평가지표를 제시하고 있다. 유사도는 두 task에 대해 GNN 구조의 고정된 집합에 포함된 디자인들을 적용하고 GNN 성능에 대해 Kendall rank correlation을 측정한다.
task 개수는 총 32개

“배치 정규화가 일반적으로 GNN에서 도움이 되는가?”와 같은 인사이트를 얻는 것이 목표. 그러나 여기에서 정의한 design과 task space는 1000만개가 넘는 결합이 있기 때문에 GridSearch가 불가능하다. 따라서 controlled random search 평가 과정을 사용해서 각 디자인 차원 간의 trade-off를 효과적으로 이해할 수 있다.
결과적으로 이러한 연구를 통해 …
(1) 잘 작동하는 GNN을 디자인하는 데 쓰일 가이드라인을 제공한다.
(2) task들 간의 최상의 디자인을 전환할 수 있도록 도와준다.
(3) Open Graph Benchmark(OGB)에 있는 새로운 task/데이터셋에 대해 SOTA 성능을 보여준다.
이에 더해 하나의 GNN 구조 인스턴스에서 GNN 디자인 공간이라는 개념으로 확장시켜 GNN 구조 디자인에 대한 새로운 기회를 제공해줌.
design: 구체적인 GNN 인스턴트 (ex. 5-layer GraphSAGE)
design dimensions: 각 디자인은 여러 개의 디자인 차원들에 의해 특성이 나타난다. (ex. 레이어 개수 , aggregation 함수 종류 )
design choice: 디자인 차원에서 선택한 실제 값
design space: 디자인 차원의 곱집합(Cartesian product) (ex. 레이어 개수 집합 L과 집계 함수 집합 AGG는 12개의 디자인이 가능하다)
task: task space를 구성하는 다양한 과제들 ex) Cora 데이터셋의 노드 분류 문제
experiment: task에 GNN 디자인을 적용하는 것
experiment space: 디자인과 task의 모든 결합을 거버함.
디자인 공간을 정의할 때 다음 원칙들을 사용한다.
(1) 가장 중요한 design dimensions를 사용할 것
(2) 최대한 적은 양의 design dimensions을 포함할 것 (ex. attention 모듈의 차원은 포함 X)
(3) 각 design dimension에서 일반적인(modest) 범위를 고려할 것
가장 광활한 디자인 공간을 제시하는 게 아니라 GNN 연구를 진행하는데 도움이 되는 디자인 공간에 어떻게 집중할 것인가를 제시하는 게 이 논문의 목표.
| Intra-layer Design | Inter-layer Design | Training configurations |
|---|---|---|
| GNN layer 하나에 관한 것 | 여러 개의 레이어들이 신경망으로 구성될 때의 디자인 | 최적화 알고리즘 구성 |
| Batch Normalization(True, False) | Layer connectivity(stack, skip-sum, skip-cat) | Batch size(16, 32, 64) |
| Dropout(False, 0.3, 0.6) | Pre-process layers(1,2,3) | Learning rate(0.1, 0.01, 0.001) |
| Activation(ReLU, PReLU, Swish) | Message passing layers(2,4,6,8) | Optimizer(SGD, Adam) |
| Aggregation(mean, max, sum) | Post-process layers(1,2,3) | Training epochs(100, 200, 400) |

k번째 GNN 레이어 정의
Skip-Connection: 이전 layer의 정보를 직접적으로 direct하게 이용하기 위해 이전 층의 입력(정보)를 연결한다.
GNN message passing layer 앞뒤로 MLP layer를 쌓을 수 있음 (Pre or Post process layers)
데이터셋 도메인(생물학, 소셜 네트워크), 또는 예측값 종류(노드, 그래프 분류)로 분류가 된다. 그러나 이러한 분류체계는 task/데이터셋 사이의 GNN 디자인 이동 가능성을 내포하고 있지 않다.
주어진 GNN task의 다른 요소들을 찾을 수 있는 다양한 GNN 디자인 집합을 찾는 것이 목표.
design space에서 D개의 랜덤한 GNN 디자인을 뽑는다.
⇒ 고정된 GNN task들의 집합에 디자인들을 적용하고 모든 task에 대한 각 GNN 모델의 평균 성능을 기록한다.
⇒ D개의 디자인들이 랭킹이 됐을 테고, M개의 그룹으로 슬라이스한 후 각 그룹에서 중앙값 성능을 가지는 모델들을 선택한다. ⇒ 최종 anchor model !
주어진 2개의 task에 대해 M개의 anchor model들을 적용한 후 성능을 기록한다.
⇒ 모든 M개의 anchor 모델에 대해서 성능을 나열한다.
⇒ Kendall rank correlation(=task similarity)을 계산한다.
T개의 task들에 대한 것이라면 모든 task들에 대해 유사도를 측정한 후 나열하면 된다. 즉 T개의 task들을 비교할 때 필요한 계산량은 M * T개의 GNN 모델을 학습하고 평가하는 것과 같다.
일반적으로 M = 12로 두고 계산하면 디자인 공간에 있는 모든 디자인들에 대해 측정한 유사도와 근사한 값이 나온다.
제시된 디자인 공간과 task 유사도 평가지표를 제대로 평가하기 위해 다양한 synthetic 그리고 real-world GNN tasks/데이터셋을 32개 모았다. ⇒ medium-sized, diverse and realistic tasks 위주로
인위적으로 만드는 데이터셋. 다양한 그래프 구조적 특성, features, labels를 고려해서 만듦.
사이의 값들로 그래프를 만드는데 이 범위로 8x8 그리드를 만들고 각 그리드 bin에 4개의 graph가 채우게끔 함. ⇒ 총 256개의 small-world, 256개의 scale-free 그래프가 만들어짐.
노드 특성의 경우에는 4가지 종류를 고려함: (1) 상수 스칼라 (2) 원핫 벡터 (3) 노드 결집 계수 (4) 노드 PageRank 점수
노드 레벨의 label의 경우 결집 계수와 PageRank 점수를 포함하고, 그래프 레벨의 label의 경우 평균 최단 경로 길이를 고려한다. 또한 feature와 label이 동일한 그래프끼리 묶인다면, 그 결합은 제외한다.
이를 모두 종합해서 12개의 노드 분류 문제와 8개의 그래프 분류 문제를 얻게 된다.
참고 논문에서 가져온 6개 노드 분류 문제들과 6개 그래프 분류 문제들을 사용한다.

예시: BatchNorm(BN)을 추가하는 것이 GNN에 도움이 될까?

BN = True이면 평균 1.15의 Rank를 가지고, BN = False이면 평균 1.44의 Rank를 가짐.
결론: BatchNorm(BN)을 추가하는 것이 GNN에 도움이 된다.
줄어든 계산량: 이 controlled random search는 full grid search에 비교했을 때 1000배 이상의 실험 수를 줄여준다. 모든 12개의 design choices에 대해 32개의 task를 돌리면 10 GPU로 5시간밖에 걸리지 않게 된다.
평가에 있어 모든 실험에서 GNN의 훈련 가능한 파라미터 수도 조정함. ⇒ pre-processing(&post-processing) layer 1개, message passing layers 3개, 은닉 차원 256개

모든 96개(32개 task * 3번)의 세팅에 대해 12개의 디자인 차원의 각 요소끼리 순위를 매긴다.
논문에서 제시한 평가 프레임워크는 GNN design dimension를 철저하게 확인할 수 있는 도구이다. 10M개의 모델-task 결합들에서 controlled random search를 진행함으로써 고정된 디자인에서 몇 개의 그래프 예측 문제들에 대해 평가하는 것보다 더 설득력 있는 가이드라인을 제공한다.
또한 다중 가설 검증 문제도 해결할 수 있다. ⇒ 12개 중 7개 design dimension이 GNN 성능에 큰 영향력이 있음을 밝혀냄 (one-way ANOVA with Bonferroni correction)
7.3에서 찾은 가이드라인에 기반해서 design dimension을 고정시켜 압축된 GNN design space를 만든다. ⇒ full-grid search를 가능하게 함.

어느 데이터셋이냐에 따라 선호되는 디자인 차원의 요소들이 다름.

task들이 크게 두 그룹으로 군집될 수 있다.
1번 문제는 풍부한 노드 특성들을 가진 노드 레벨의 task이라서 feature 정보를 전달하는 것이 선호되고, 이와 반대로 2번 문제는 구조적 정보를 전달하는 것이 효과적이다.

최적의 모델을 하나의 task에서 다른 task로 옮기고 새로운 task에 대해 모델의 성능 순위를 측정할 수 있다. 실제로 두 task의 유사도와 다른 task로 이동한 후의 성능 순위 사이의 피어슨 상관계수가 0.8로 높은 값이 나옴.
즉, 논문에서 제시한 task 유사도 평가지표는 GNN 디자인이 새로운 task에 얼마나 잘 이동했는지를 보여준다.

표준 디자인 → message passing layers 값이 {2,4,6,8} 안에 있고, 나머지 파라미터는 Table 1에서 찾은 최적의 값들로 설정한 표준 GCN.
최적 디자인 → 논문에서 제시한 design space에서 만든 모델
둘을 비교해본 결과, 32개 task 중에서 24개 task가 최적 디자인일 때 더 좋은 성능을 보였다.
강조: SOTA 성능을 추구하는 것이 목적이 아닌, GNN 그래프 디자인을 위한 시스템적인 접근을 보여주기 위함.
design space로부터 96개 디자인을 추출 + task space로부터 task 유사도 평가지표 제작. (높은 유사도끼리는 디자인을 이동시킬 수 있도록)
1️⃣ 기존 모델보다 더 좋은 성능을 보여줌 (ROC AUC 0.792 vs 0.771)[연구 문제]
- 압축된 디자인 공간에 있는 최적 디자인이 SOTA 성능을 달성할 수 있는가?
- grid search 없이 task 유사도만으로 이동할 그래프 디자인을 찾을 수 있는가?


‘ogbg-molhiv’와의 유사도가 각각 0.47, -0.61을 가지고 있는 task A와 B를 선택 (비교를 위함)
GNN 디자인 공간과 양적 task 유사도 메트릭이 포함된 GNN task 공간을 design space 평가 방법과 함께 연구하는 것이 GNN 모델과 task들에 대한 새로운 이해를 이끌 수 있다.
알고리즘 개발 비용을 줄이고 경험적인 성능 또한 얻어낼 수 있다.
개별적인 GNN 디자인과 task 인스턴스를 공부하는 관점에서 공간의 개념으로 확장해 시스템적으로 연구하는 관점을 제시했다.
GNN 연구: 모델 복잡성을 통제하는 원리를 충분히 적용함. GNN 인스턴스화가 아닌 GNN 디자인의 가이드라인 제시. 최적의 GNN 디자인이라 하더라도 다른 task에서는 성능이 낮아질 수 있다는 점 제시. 최종적으로 양적 유사도 평가지수로 측정되는 다양한 task에 대한 모델 평가 방법을 제시.
머신러닝 연구: 논문에서 제시한 controlled random search 방식이 일반적인 머신러닝 모델 디자인에 적용할 수 있다. 해당 알고리즘 개선점이 유용한지 보기 위해 모델-task 결합들을 랜덤으로 샘플링해서 성능이 좋아지는지 확인하는 것이 필요하다.
다른 연구 도메인: 도메인 전문가들이 적절히 포맷되어 있는 데이터셋만 제공한다면 추천된 GNN 디자인을 자동으로 적용시킬 수 있을 것이다. GNN 모델을 적용하는 것에 대한 장벽을 낮춰줌.