전처리(Preprocessing)
전처리?
넓은 범위의 데이터 정제 작업
- 필요없는 데이터를 지우고 필요한 데이터만을 취하는 것. - null 값이 있는 행을 삭제하는 것 - 정규화(Normalization) - 표준화(Standardization) 등 많은 작업들을 포함.
정규화
데이터를 0과 1사이의 범위를 가지도록 만드는 것.
데이터 중에서 가장 작은 값을 0으로 만들고, 가장 큰 값을 1로 만든다.
표준화
데이터의 분포를 정규분포로 바꿔준다.
즉 데이터의 평균이 0이 되도록하고 표준편차가 1이 되도록 만들어준다.일단 데이터의 평균을 0으로 만들어주면 데이터의 중심이 0에 맞춰지게(Zero-centered) 된다. 그리고 표준편차를 1로 만들어 주면 데이터가 예쁘게 정규화(Normalized) 된다. 이렇게 표준화를 시키게 되면 일반적으로 학습 속도(최저점 수렴 속도)가 빠르고, Local minima에 빠질 가능성이 적다.