그래프 신경망에서 훈련, 검증, 테스트 데이터셋을 나누는 기준이 20개, 10%, 80% 인 이유는?

민죵·2024년 9월 19일
0

Question

목록 보기
10/25
  1. GNN에서의 노드 분류 작업은 테스트 데이터셋에 대한 그래프 구조를 포함하여 학습하는 전이학습이기 때문에, 적은 수의 노드만으로도 그 관계를 학습할 수 있기 때문에 훈련데이터 셋은 20개만을 사용한다. (훈련데이터를 너무 많이 사용할 경우, 그래프 구조에 overfitting될 수 있다.)

    GNN은 소수 노드 만으로 구조적 특성을 최대한 활용하는 것이 목적이다. 그래프에서 노드들은 인접 노드들과 연결되어 있으며, 각 노드는 자신의 특성뿐만 아니라 이웃 노드들로부터 정보를 전파받는다. 이는 그래프 구조를 잘 활용하는 모델이 적은 양의 레이블된 데이터만 가지고도 성능을 낼 수 있게 한다.

  2. 반면, 일반 신경망에서의 데이터셋은 독립 샘플로 이루어져있기 때문에, 샘플 데이터간의 상관관계가 없을 때는 60/20/20비율을 사용한다. 충분한 양의 데이터를 훈련데이터에 사용해야 학습이 안정화된다.

GNN에서의 데이터셋을 나누는 이와 같은 방식은 그래프 신경망 연구의 표준 실험 설정으로 자리잡았으며, 여러 연구 논문에서 사용되고 있다.

20개 10%, 80% 가 표준 실험설정인 근거


profile
빅데이터 / 인공지능 석사 과정 (살아남쨔 뀨륙뀨륙)

0개의 댓글