1. What is Self-Supervised Learning and Why Bother?

Min woo Kim·2025년 2월 13일
post-thumbnail

1. What is Self-Supervised Learning and Why Bother?

지도학습은 라벨이 있는 데이터로만 학습할 수 있는 반면, 자기지도학습(SSL)은 비라벨 데이터로부터 학습할 수 있다는 강점이 있다.
자기지도학습은 자연어처리(NLP)의 성공의 중요한 요소 였으며 기계번역부터 LLM까지 다양한 성과를 이끌어왔다. 컴퓨터 비전 분야에서도 SSL은 SEER 같은 모델을 통해 데이터 규모의 한계를 넓혔다. 또한 일부 SSL 모델은 ImageNet과 같은 벤치마크에서도 지도학습 모델과 동등하거나 능가하는 성능을 보여주었다. 더 나아가 SSL 은 영상, 오디오, 시계열과 같은 멀티 모달에도 성공적으로 적용되고 있다.

SSL은 비라델 데이터에 기반한 pretext task를 정의하여 유용하고 해석 가능한 표현(representation)을 학습하는것을 목표로 한다. 자연어 처리에서는 흔히 특정 단어를 마스킹하고 주변 단어를 예측하는 방식(BERT)이 사용된다. 이러한 학습은 라벨 없이도 텍스트 내 단어간의 관계를 학습하도록 유도하고 이렇게 학습된 표현은 번역, 요약, 생성 등 다양한 downstream task에서 활용될 수 있다. 컴퓨터 비전에서도 유사한 방식이 적용되는데, 예를 들어 MAE(Masked AutoEncoder)나 BYOL(Bootstreap Your Own Latent)같은 모델은 이미지의 일부 패치를 마스킹한 후 이를 예측하는 방식으로 학습된다.

방대한 비라델 데이터를 학습할 수 있다는 점은 여러가지 장점을 제공한다. 기존 지도학습은 특정한 작업을 사전에 정의된 라벨 데이터에 맞추어 학습하지만, SSL은 다양한 작업에서 유용한 일반적인 표현을 학습한다. 특히 의료와 같은 도메인에서는 라벨 데이터 취득 비용이 매우 높거나, 학습해야 할 특정 작업이 사전에 명확하지 않을떄 자기지도학습이 매우 유용할 수 있다.

또한 자기지도학습 모델은 지도학습 모델보다 Adversarial examples, Label corruption, Input perturbation에 대한 robustness가 뛰어나고 보다 공정한 표현을 학습할 수 있다는 연구 결과도 존재한다. 이러한 이유로 자기지도학습은 점점 더 많은 관심을 받고 있는 분야이다. 하지만 요리와 마찬가지로 자기지도학습을 효과적으로 훈련하는 것은 섬세한 기술이 필요하며 진입 장벽이 높은 분야이기도 하다.

1.1 Why a Cookbook for Self-Supervised Learning?

비록 SSL의 여러 요소가 연구자들에게 익숙할지라도 SSL 모델을 성공적으로 훈련시키기 위해서는 pretext task(모델이 비지도 데이터에서 의미 있는 특징 표현을 학습하도록 설계된 보조 과제) 부터 학습 하이퍼파라미터까지 매우 다양한 선택지를 고려해야 한다. SSL 연구는 몇가지 요인으로 인해 높은 진입 장벽을 가지고 있는데, 첫째, 막대한 계산 비용이 요구된다. 둘째, SSL의 잠재력을 온전히 실현시키기 위해 필요한 복잡한 구현을 상세히 설명하는 논문이 부족하다. 셋째, SSL을 통합적으로 설명할 수 있는 통일된 용어와 이론적 관점이 부족하다.

SSL은 기존의 복원 기반 비지도학습 방법(denoising, variational autoencoders)과는 명확히 구분되는 새로운 패러다임을 구축했다. 그러나 이를 일관된 방식으로 이해할 수 있는 개념적 용어는 아직 충분히 정립되지 않았기 떄문에 연구자들이 쉽게 진입하기 어렵다.
그러나 SSL 연구는 새로운 연구자들을 절실히 필요로 한다. 이미 실제 산업에서 SSL이 폭넓게 활용되고 있지만 여전히 해결해야 할 많은 연구 문제들이 남아있다. 예를 들면

  • 일반화 보장 (generalization gurantees)
  • 공정성 (fairness)
  • 적대적 공격(adversarial attack) 및 자연적으로 발생하는 변동성에 대한 강인성

이러한 문제들은 SSL의 신뢰성을 보장하는데 필수적이다.

또한 SSL은 경험적으로 주도되는(empirically driven) 연구분야이며 다양한 요소(대부분 하이퍼파라미터)가 최종 표현의 핵심 속성에 영향을 미칠 수 있다. 하지만 이러한 요소들은 논문에서 충분히 상세히 다루어지지 않는 경우가 많다. 따라서 SSL을 연구하려면 우선 기존 방법들을 철저히 실험적으로 분석하고, 각각의 요소가 미치는 영향을 완전히 파악해야 한다. 이러한 경험적 사각지대(empirical blind spots)는 SSL 연구에 큰 제약이 될 수 있다. 특히 이를 극복하려면 대규모 컴퓨팅 자원과 사전 경험이 필요하기 때문이다.

결론적으로, 겉보기에는 서로 다른 접근법이지만 본질적으로 중첩된 SOTA(State of the Art) 성능을 가진 SSL 방법들이 공존하는 현 상황과, 부족한 이론적 연구, 그리고 광범위한 실용적 적용등을 고려했을 떄, SSL 연구의 진입장벽을 낮출 수 있는 "레시피 북" 스타일의 가이드가 필수적이다.

우리는 SSL 연구의 진입장벽을 낮추고자 이 책을 "Cookbook" 스타일로 구성하였다.

요리를 성공적으로 하려면 먼저 기본적인 기술을 익혀야 한다. 예를 들어 칼질, 볶기 등의 기본기를 배워야 한다. 이에 따라 2장에서 우리는 공통된 용어 체계를 사용하여 자기지도학습의 기본 기법을 설명한다. 특히, 각 기법들이 어떻게 연결되는지 이론적 관점에서 설명하며, 손실 함수(Loss term)이나 학습 목표(Training objective) 같은 핵심 개념을 강조할 것이다.

다음으로, 요리사는 기술을 활용하여 맛있는 요리를 만드는 법을 배워야 한다. 이를 위해서는 기존의 레시피를 익히고, 재료를 조합하며, 완성된 요리를 평가하는 과정이 필요하다. 따라서, 3장에서는 SSL method를 성공적으로 구현하기 위한 실용적인 고려 사항을 다룬다.

  • 일반적인 학습 레시피 소개
  • 하이퍼파라미터 선택
  • 모델 아키텍쳐 및 optimzer 조합 방법
  • SSL 모델 평가 방법

또한, 최신 연구자들의 실전 경험을 바탕으로 일반적인 학습 설정과 흔히 발생하는 실수를 공유할 것이다. 우리는 이 책이 SSL 연구를 성공적으로 수행하고 탐색하는 데 필요한 실용적 기반이 되길 바란다.

profile
머신러닝과 로보틱스를 좋아합니다.

0개의 댓글