데이터 전처리는 데이터 분석을 위해 수집한 데이터를 분석에 적합한 형태로 만드는 과정이다.
실제 데이터에는 보통 결측치, 이상치, 중복데이터, 숫자의 범위 등 제 각각으로 깔끔하지 않은 상태로 주어진다. 이 상태의 데이터를 모델에 그대로 넣으면 모델은 노이즈의 영향을 받아 정확하게 예측이나 분류를 하지 못하는 문제가 발생한다.
학습 속도 향상
모델의 정확도 향상
데이터 품질 개선
모델의 안정성 향상
결측치 처리 : 결측치를 평균값이나 중앙값, 최빈값 등으로 채우거나 행이나 열을 삭제하는 방법으로 처리한다.
이상치 처리 : 다른 데이터들과 동떨어져있는 데이터 값을 적절한 값으로 대체한다.
정규화 : 값을 일정한 범위로 맞추는 역할을 한다. 대표적으로 값을 0과 1 사이로 변환하는 방식을 사용한다.
표준화 : 서로 다른 변수들의 값 범위를 일정한 수준으로 맞추는 과정이다.
인코딩 : 문자형 데이터를 컴퓨터가 이해할 수 있는 숫자형 데이터로 변환하는 과정이다.
텍스트 전처리 : 텍스트 데이터의 경우, 문장을 쪼개는 토큰화나 의미 없는 단어를 지우는 과정이다.
데이터 라벨링은 정답지를 데이터에 붙여주는 과정이다. 특히 지도학습 시에 성능을 크게 좌우한다.
잘못된 라벨이 많거나 기준이 일관되지 않으면 모델이 잘못된 패턴을 학습하게 된다. 그렇기 때문에 정확성과 일관성을 갖고 라벨링을 하는 것이 중요하다.
이미지 데이터 : 고양이와 강아지 분류, 객체 위치 표시
텍스트 데이터 : 긍정/부정 감정 분류
음성 데이터 : 발화 내용, 화자 구분