데이터 전처리란 데이터를 학습에 적합한 형태로 데이터를 가공하는 과정을 말한다.
데이터 전처리는 분석 결과와, 모델 성능에 직접적인 영향을 주는 매우 중요한 과정이다.
데이터 정제
수집된 데이터의 불일치성을 교정하는 기법이다.
데이터 통합
다양하게 나뉘어져 있는 데이터들을 학습에 용이하게 통합하는 기법이다.
데이터 축소
불필요한 데이터를 축소하여 분석에 대한 효율을 높이는 기법이다.
데이터 변환
다양한 데이터를 학습에 용이하도록 데이터를 정규화 또는 집단화 하는 기법이다.
교차검증이란 모델의 학습 과정에서 훈련셋을 k등분하고, 1개의 검증셋과, 나머지의 훈련셋을 통해 1회의 학습을 하고, 검증셋을 바꿔가면서 k번의 학습한 결과의 평균을 구하는 과정이다.
학습 정확도를 높인다.
데이터수의 부족으로 인한 언더피팅을 방지한다.
1가지 훈련셋에 편향되는 오버피팅을 방지한다.
모델 학습 시간이 오래걸린다.
데이터 전처리를 학습하다 보니, 첫주차에 다루었던 series와 dataframe에 대한 악몽이 다시 떠올랐다... 데이터 전처리 과정은 데이터 분석에 있어 80%의 시간을 소요할 정도로 힘들고 중요한 작업이라고 하니 열심히 해야겠다 ㅠㅠ