Semi-Supervised Learning 방법론

주진성·2024년 2월 18일

MLOps

목록 보기
1/1

Semi-Supervised Learning

일부 Data만 Labeling이 존재하며, 나머지는 Labeling이 존재하지 않는 상황에서의 Learning 방식

모델은 Labeling된 데이터를 통해 스스로 학습하고, 그 특징을 활용하여 Label이 없는 데이터를 예측한다.

Semi-Supervised Learning 방법론

1. Self training

예측을 진행하고 예측에서 높은 확률이 나오면 그 데이터를 labeled data로 치환하고 그렇지 못한 데이터들에 대해서 학습을 시키는 것.

학습 순서는 다음과 같음.

  1. 레이블이 달린 데이터로 모델을 학습시킴.

  2. 이 모델을 가지고 레이블이 달리지 않은 데이터를 예측

  3. 이중에서 가장 확률값이 높은 데이터들만 레이블 데이터와 합침.

  4. 위 과정을 계속 반복하다보면 정확도가 높은 모델생성.

2. Co training

데이터를 여러 독립적 부분집합 혹은 도메인으로 나누어 모델을 학습하여, Semi-supervised 학습에서의 Labeling 데이터 부족 문제를 해결함.

각기 다른 모델 두개가 협동해서 학습하는 방식.

학습 순서는 다음과 같음.

  1. 초기 데이터(라벨링 되어있는 데이터와 되어있지 않은 데이터가 모두 모여있는 데이터) 를 여러 부분으로 나눈다.

예를들어 텍스트 데이터를 특정 문장을 기준으로 나눈다.

  1. 독립된 각기다른 모델들이 나누어진 데이터를 대상으로 각각 학습한다. 이때 각 모델은 다른 View(관점) 으로 학습한다.

예를들어 모델 A는 1번 View로 , 모델 B는 2번 View로 학습한다.

  1. 각기 다른 모델이 각자 다른 View(관점) 에서 학습한 결과를 공유하며 서로의 예측을 보완한다.

3. Multi view Learning

데이터를 여러 다른 View(관점) 또는 특성을 나누어 모델을 학습시킴.

데이터의 다양한 특성이 중요한경우 유용함.

학습 순서는 다음과 같음.

  1. 데이터를 여러 부분 또는 View(관점) 으로 분할함.

예를들어 이미지 데이터를 픽셀 데이터와 색 공간 데이터로 분할

  1. 분할된 데이터를 통해 여러 모델에게 학습시킴.

  2. 각 View에서 얻은 정보를 종합하여 모델을 결합시킴.

0개의 댓글