Supervised Learning은 머신러닝의 대표적인 방법론 중 하나입니다. 이는 labeled data를 통해 데이터의 패턴을 학습하여 새로운 데이터에 대해 예측을 수행하는 방식입니다. 그러나 Supervised Learning에는 아래와 같은 몇 가지 한계점이 존재합니다.
Semi-Supervised Learning(준지도 학습)은 소량의 labeled data와 대량의 unlabeled data가 있을 때, 이 둘을 함께 사용해 학습 성능을 극대화하는 방법론입니다. labeled data에는 Supervised Learning을 적용하고, unlabeled data에는 Unsupervised Learning을 적용하여 모델의 일반화 성능을 높이는 것이 목표입니다. 이 접근법은 labeled data가 부족한 환경에서 unlabeled data를 통해 데이터 분포를 학습함으로써 성능 향상을 기대할 수 있습니다.
이러한 Semi-Supervised Learning은 의료 데이터나 웹 검색, 이미지 분류 등 대량의 unlabeled data가 있지만, labeled data를 구하기 어려운 상황에서 특히 유용합니다.
위의 그림을 보면 supervised learning의 decision boundary는 사실상 optimal하지 않고 unlabeled data를 활용하여 데이터 자체의 분포를 모델링하면 우측의 그림 처럼 더욱 optimal한 decision boundary를 얻을 수 있습니다.
Semi-Supervised Learning의 목적함수는 labeled data에 대한 Supervised Loss와 unlabeled data에 대한 Unsupervised Loss의 합을 최소화하는 것으로 표현할 수 있습니다. 이는 Supervised와 Unsupervised 학습을 한 번에, 즉 1-stage로 수행하는 것을 의미합니다. 이는 Self-Supervised Learning이나 Transfer Learning과의 차이점인데, 이들 방법론은 보통 2-stage로 학습을 진행합니다.
Semi-Supervised Learning은 특정한 가정들을 기반으로 효과적으로 작동합니다. 이러한 가정들은 모델이 unlabeled data로부터 유용한 정보를 얻을 수 있도록 하는 이론적 근거를 제공합니다.
Smoothness Assumption
"만약 데이터 포인트 x1과 x2가 고밀도 지역에서 가깝게 위치한다면, 그 출력 y1과 y2도 가깝게 위치해야 한다."
Cluster Assumption
"만약 데이터 포인트들이 같은 cluster에 있다면, 그들은 같은 class일 것이다."
Manifold Assumption
"고차원의 데이터를 저차원 manifold로 표현할 수 있다."
Low-Density Assumption
“ 분류기의 결정 경계(decision boundary)가 가급적 입력 공간에서 저밀도 지역을 통과해야한다.”
위 그림에서 Low-Density Assumption에 따르면, 최적의 decision boundary(점선)는 저밀도 지역을 통과하게 됩니다. 만약 labeled 데이터 5개만(표시된 포인트)을 사용해 지도 학습을 수행한다면, 데이터 간 연결선에 수직인 경계(실선)가 생성될 것입니다.
그러나 unlabeled data를 통해 더 많은 정보를 얻으면, 모델은 자연스럽게 데이터 밀도가 낮은 영역을 경계로 하여 최적의 decision boundary에 가까워집니다.