GNN에서의 노드 분류 작업은 테스트 데이터셋에 대한 그래프 구조를 포함하여 학습하는 전이학습이기 때문에, 적은 수의 노드만으로도 그 관계를 학습할 수 있기 때문에 훈련데이터 셋은 20개만을 사용한다. (훈련데이터를 너무 많이 사용할 경우, 그래프 구조에 overfitting될 수 있다.)
GNN은 소수 노드 만으로 구조적 특성을 최대한 활용하는 것이 목적이다. 그래프에서 노드들은 인접 노드들과 연결되어 있으며, 각 노드는 자신의 특성뿐만 아니라 이웃 노드들로부터 정보를 전파받는다. 이는 그래프 구조를 잘 활용하는 모델이 적은 양의 레이블된 데이터만 가지고도 성능을 낼 수 있게 한다.
반면, 일반 신경망에서의 데이터셋은 독립 샘플로 이루어져있기 때문에, 샘플 데이터간의 상관관계가 없을 때는 60/20/20비율을 사용한다. 충분한 양의 데이터를 훈련데이터에 사용해야 학습이 안정화된다.
GNN에서의 데이터셋을 나누는 이와 같은 방식은 그래프 신경망 연구의 표준 실험 설정으로 자리잡았으며, 여러 연구 논문에서 사용되고 있다.