Data Preprocessing & Augmentation

seung·2024년 8월 13일

목록 보기

14/14

우리가 neural network를 돌릴때 데이터가 많이 없거나, 데이터가 깨끗하지 않을 때 어떻게 해야 되는지 알아보자!!

Data Preprocessing

데이터 전처리의 중요성과 다양한 기법에 대해 설명할 것이다.

1. zero-centering & Normalization

예를 들어 지도 학습에서 train data를 모아서 neural network를 학습시킬 때 data의 distribution이 skewed되어 있고, 잘 정리 되지 않은 경우가 있다.
이런 경우 model train하면 모델이 굉장히 noise하게 학습된다. 전처리는 정말 필수이다.(전처리를 하고 train을 하면 정말 많이 좋아진다.)

모든 입력값이 양수이면 sigmoid와 마찬가지로 gradient들이 다 같은 부호가 됨으로써 학습이 잘 안될 수 있다.

그래서 데이터에서 평균을 빼줌으로써 데이터의 분포를 zero-centering해주고, normalize하기 위해 표준편차로 나누어 준다.
(기본적으로 nn은 데이터 분포를 정규분포로 가정하기 때문에 데이터가 들어오면 꼭 데이터 정규화를 해줘야 한다. 컴퓨터 비전도 마찬가지!!!)

왜 굳이 zero를 중심으로 할까?

아래의 그림처럼
weight의 작은 변화에 덜 민감해진다.
optimize하기 쉬워진다.

2. PCA & Whitening

분산이 큰 데이터의 경우에 분산 파라미터를 없애주고 데이터의 키가 되는 본질적인 특징만 표현할수 있도록 압축 시켜주는 기법이다.

PCA?

데이터의 차원이 클때 중요한(제일 데이터를 잘 설명하는) 차원만을 남기고 나머지는 날리려서 데이터를 압축하는 기법이다. neural network가 나오기 전에 엄청 자주 사용되던 기법이다.

pca는 데이터 분포 에서 가장 분산이 큰 축으로 rotate를 시켜 데이터가 0을 중심으로 분포하게 만든다.

whitening?

covariance 행렬을 만든다. 즉, 데이터 분포에다가 variance로 나눠줌으로써 정규분포를 따르도록 한다.

Data Augmentation

실제 우리가 이미지 분류 연구할 때 데이터 셋이 적을 때가 많다.
이때 우리는 데이터의 의미에 영향을 주지 않고, classifier의 task를 변형하지 않고 데이터를 변형시켜 늘리고 싶을 것이다. 큰 데이터 셋은 너무 비싸니깐 기존의 데이터를 최대한 활용하자에서 시작되었다.
컴퓨터 비전 분야에서 많이 사용된다.