2주차 preview__데이터 전처리, 라벨링

김서연·2026년 3월 29일

데이터 전처리

데이터 전처리는 데이터 분석을 위해 수집한 데이터를 분석에 적합한 형태로 만드는 과정이다.

실제 데이터에는 보통 결측치, 이상치, 중복데이터, 숫자의 범위 등 제 각각으로 깔끔하지 않은 상태로 주어진다. 이 상태의 데이터를 모델에 그대로 넣으면 모델은 노이즈의 영향을 받아 정확하게 예측이나 분류를 하지 못하는 문제가 발생한다.

학습 속도 향상

모델의 정확도 향상

데이터 품질 개선

모델의 안정성 향상

결측치 처리 : 결측치를 평균값이나 중앙값, 최빈값 등으로 채우거나 행이나 열을 삭제하는 방법으로 처리한다.

이상치 처리 : 다른 데이터들과 동떨어져있는 데이터 값을 적절한 값으로 대체한다.

정규화 : 값을 일정한 범위로 맞추는 역할을 한다. 대표적으로 값을 0과 1 사이로 변환하는 방식을 사용한다.

표준화 : 서로 다른 변수들의 값 범위를 일정한 수준으로 맞추는 과정이다.

인코딩 : 문자형 데이터를 컴퓨터가 이해할 수 있는 숫자형 데이터로 변환하는 과정이다.

라벨 인코딩 : 범주형 데이터를 고유한 숫자로 일대일 매핑하는 방식이며 주로 서열 척도에서 사용한다. ex) 사과->1, 바나나->2
원-핫 인코딩 : 고유값 개수만큼 열을 추가하여 해당하는 열에만 1을 표시하고 나머지는 0으로 표시하는 방식이며 대부분 원-핫 인코딩을 사용한다. ex) 사과->[1, 0], 바나나->[0, 1]

텍스트 전처리 : 텍스트 데이터의 경우, 문장을 쪼개는 토큰화나 의미 없는 단어를 지우는 과정이다.