전처리

김건우·2022년 1월 5일
0

머신러닝

목록 보기
9/21
post-thumbnail

전처리(Preprocessing)

전처리?

넓은 범위의 데이터 정제 작업

- 필요없는 데이터를 지우고 필요한 데이터만을 취하는 것.
- null 값이 있는 행을 삭제하는 것
- 정규화(Normalization)
- 표준화(Standardization) 등 많은 작업들을 포함.

정규화

데이터를 0과 1사이의 범위를 가지도록 만드는 것.

X=XX최소X최대X최소X' = \frac{X - X_{최소}}{X_{최대} - X_{최소}}

데이터 중에서 가장 작은 값을 0으로 만들고,
가장 큰 값을 1로 만든다.

표준화
데이터의 분포를 정규분포로 바꿔준다.

X=XX평균X표준편차X' = \frac{X - X_{평균}}{X_{표준편차}}

 즉 데이터의 평균이 0이 되도록하고 표준편차가 1이 되도록 만들어준다.
일단 데이터의 평균을 0으로 만들어주면 데이터의 중심이 0에 
맞춰지게(Zero-centered) 된다. 
그리고 표준편차를 1로 만들어 주면 데이터가 예쁘게 
정규화(Normalized) 된다. 
이렇게 표준화를 시키게 되면 일반적으로 
학습 속도(최저점 수렴 속도)가 빠르고, 
Local minima에 빠질 가능성이 적다.

정규화와 표준화의 차이

profile
공부하는 개발자가 목표입니다.

0개의 댓글