
데이터 (x,y) -> x는 데이터, y는 라벨
목표 x를 y로 매핑하는 함수 학습
예시 : 분류 회귀 객체 검출, 의미 분할
데이터 X -> X는 데이터, 라벨 없음
목표 : 데이터의 숨겨진 혹은 내재된 구조 학습
에시 : 군집화, 특징 추출, 자원 축소
특정 분포에서 추출한 훈련 샘플을 입력 받아, 해당 분포를 나타내는 모델을 학습
밀도 추정 : 주어진 샘플 분포를 기반으로 데이터의 밀도를 측정
생성 모델은 다양한 피부색, 자세, 조명 조건 등을 포함하여 생성 모델은 편향을 해소하고,
더 많은 그룹을 포괄할 수 있게 해야함
동일한 데이터셋 : 동일한 피부색과 자세의 인물로만 구성
다양한 데이터셋 : 다양한 피부색, 조명 조건을 포함
편향된 데이터는 특정 그룹의 특성만을 반영하여, 다른 그룹이 소외되는 결과를 초래할 수 있음
생성 모델을 통해 다양한 그룹을 포함하는 데이터를 생성함으로써
모든 그룹이 공정하게 대표될 수 있음
데이터의 편향은 모델이 특정 인종, 성별, 나이 등 특정 특성에 대해 편향된 에측을 하게 할 수 있음
편향 해소를 통해 공정한 예측을 수행하게 만들어, 특정 집단에 대한 부정확한 예측을 줄일 수 있음
다양한 데이터를 학습함으로써 모델은 더 다양한 상황에서 정확한 예측을 할 수 있게 됨
문제
새로운 상황이나 드문 경우를 어떻게 감지할 수 있을까?
전략
생성 모델을 활용하여 분포 내에서 이상치를 감지
(이상치를 학습에 활용하여 모델 성능을 더욱 향상시킬 수 있음)
생성 모델 + 판별 모델 (GAN 방식)
GAN 구조에서 생성모델과 판별 모델을 활용해 아래 문제를 해결
전체 데이터의 95%가 평균을 중심ㅇ르로 한 일반적인 상황으로 간주
나머지 5%는 분포의 양 끝부분에 위치하여 이상치(outliers)로 감지
굴 속에 갇혀 있는 사람들이 벽에 비친 그림자를 실제 사물로 인식하는 모습은
잠재 변수가 실제 데이터의 숨겨진 본질이나 패턴을 나타내는 것과 비슷
라벨이 없는 데이터를 사용하여 낮은 차원의 특징 표현을 학습시키는 비지도 학습
잠재공간은 입력 데이터 x의 핵심 특징들을 요약한 저차원 공간
이 공간은 데이터를 요약한 표현으로, 데이터의 본질적인 특성만 추출하여 표현하는 역할
잠재 중간 매핑 : 고차원 데이터에서 중요한 특징을 추출해 저차원 공간에 표현하는 것
모델은 원본 데이터 x로 잠재 공간 z로 압축하고, 이를 이용해 원본데이터를 복원
인코더 : 데이터를 점차 압축하여 가장 중요한 특징들만 남겨 잠재 공간으로 변환
디코더 : 잠재 공간을 받아 다시 원본 데이터에 가깝게 복원
입력 데이터 (x)
원본 이미지 또는 데이터가 입력을 주어짐
잠재 표현 (z)
입력 데이터는 점점 압축되어 중간 지점에서 저차원의 잠재 표현으로 변환
이 잠재 표현은 입력 데이터를 압축하면서도 중요한 특징을 유지하도록 학습
출력 데이터(x)
네트워크는 잠재 표현을 이용해 원본 데이터와 유사한 재구성된 출력을 생성
손실함수
입력과 출력의 차이를 최소화하는 방식으로 학습
오토인코더의 잠재 공간 크기에 따라 재구성된 이미지의 품질 차이를 보여줌
잠재 공간의 차원이 클수록 원본 데이터에 더 가까운 복원이 가능
hidden layer
입력 데이터를 잠재 표현으로 압축
네트워크가 데이터를 의미 있고 압축된 형태로 학습하도록 강제
Reconstruction Loss
잠재 표현이 가능한 많은 정보를 포착하도록 유도
출력 (재구성된 데이터)이 원래 입력과 얼마나 일치하는지를 측정하여 정보 손실을
최소화하도록 네트워크를 안내
오토인코딩
데이터를 자동으로 인코딩하는 과정을 의미하며, 수작업 없이 표현을 학습하는 방식
기존 오토인코더는 데이터가 잠재 공간에서 연속적인 분포를 형성하지 않기 때문에,
새로운 데이터를 생성하는데 한계가 있음
기존 오토인코더는 주어진 데이터에 대한 재구성은 가능하지만,
학습되지 않은 새로운 데이터의 생성에는 어려움을 겪음
입력 데이터가 노이즈에 취약할 경우, 재구성된 출력이 품질 저하를 일으킬 수 있음
어떤 데이터 포인트에도 해당하지 않는 잠재 공간의 부분이 발생
클러스터링이 되지 않은 값으로 생성하면 숫자가 출력이 되지 않음
연속성 부족
기존 오토인코더는 데이터가 잠재 공간에서 연속적인 분포를 형성하지 않기 때문에,
새로운 데이터를 생성하는 데 한계가 있음
데이터가 매핑되지 않는 잠재 공간에 '갭'이 있음
변분 오토인코더는 입력 데이터 x를 인코더를 통해 평균과 표준편차로 표현된 잠재 분포로 매핑
잠재 변수를 정규 분포에 가깝게 만들도록 학습
예를 들어 MINIST 데이터셋에서 각 샘플 데이터를 잠재 공간에서 하나의 확률 분포로
표현된 개별 숫자 이미지 특정 위치를 중심으로 퍼져 있는 정규 분포 형태로 나타남