지난 강의에서는 GPU 사용법, 대규모 훈련 확장, 그리고 이미지 분류, 의미론적 분할, 객체 탐지 등 핵심적인 컴퓨터 비전(CV) 태스크에 대해 다루었습니다.
초기에는 픽셀 공간에서의 최근접 이웃(Nearest Neighbor) 방식을 논했지만, 이는 효율적이지 않습니다.
대신, 임베딩 계층(embedding layers) 또는 특징 공간(feature space)에서 추출된 학습된 표현(Learned Representations)을 사용하는 것이 효과적입니다.
주요 과제: 대규모 신경망을 훈련시키는 것은 항상 어렵습니다. 그 이유는 대규모 훈련을 위해서는 막대한 양의 수동 레이블링된 데이터가 필요하기 때문입니다.

자기 지도 학습(Self-Supervised Learning)의 등장: 수동으로 레이블링된 대규모 데이터 세트 없이도 신경망을 훈련하여 매우 좋은 특징을 얻을 수 있는 방법을 찾는 것이 목표입니다.

가설: 레이블이 없는 대규모 데이터 세트(예: 인터넷에서 다운로드한 자연 이미지)를 사용하여, 특징을 잘 학습할 수 있는 사전 작업(Pretext Task)을 정의하고, 이를 통해 신경망을 훈련할 수 있습니다.


지식 전이(Transfer of Knowledge): 사전 작업으로 훈련된 인코더(Encoder)를 추출하여, 레이블이 적은 특정 데이터 세트(예: 산업 또는 의료 애플리케이션)를 위한 다운스트림 태스크(Downstream Task)에 활용합니다.
SSL의 구성 요소:

자동 레이블 생성: SSL의 핵심은 수동 주석(Manual annotations)이 아닌 데이터 자체에서 레이블을 자동 생성하는 것입니다.
훈련 후 적용: 사전 작업으로 훈련이 완료된 후, 인코더는 동결되고 다운스트림 태스크를 위해 단일 계층(예: 선형 함수) 또는 완전 연결 신경망이 추가되어 레이블을 예측하는 데 사용됩니다.































인코더 (Encoder):

디코더 (Decoder):

손실 함수: 재구성 손실은 평균 제곱 오차 (MSE) 기반이며, 이전 인페인팅과 유사하게 마스킹된 패치에 대해서만 계산됩니다.
-
(여기서 은 마스크된 패치의 집합이며, 는 실제 픽셀 값, 는 재구성된 픽셀 값입니다.)






















