2주차 preview__데이터 전처리, 라벨링

김서연·2026년 3월 29일

데이터 전처리

데이터 전처리는 데이터 분석을 위해 수집한 데이터를 분석에 적합한 형태로 만드는 과정이다.

실제 데이터에는 보통 결측치, 이상치, 중복데이터, 숫자의 범위 등 제 각각으로 깔끔하지 않은 상태로 주어진다. 이 상태의 데이터를 모델에 그대로 넣으면 모델은 노이즈의 영향을 받아 정확하게 예측이나 분류를 하지 못하는 문제가 발생한다.

데이터 전처리의 중요성

학습 속도 향상

모델의 정확도 향상

데이터 품질 개선

모델의 안정성 향상

데이터 전처리 과정

결측치 처리 : 결측치를 평균값이나 중앙값, 최빈값 등으로 채우거나 행이나 열을 삭제하는 방법으로 처리한다.

이상치 처리 : 다른 데이터들과 동떨어져있는 데이터 값을 적절한 값으로 대체한다.

정규화 : 값을 일정한 범위로 맞추는 역할을 한다. 대표적으로 값을 0과 1 사이로 변환하는 방식을 사용한다.

  • Min-Max Scaler : 데이터를 특정 범위로 변환한다.

표준화 : 서로 다른 변수들의 값 범위를 일정한 수준으로 맞추는 과정이다.

  • Standard Scaler : 평균을 0, 표준편차를 1로 맞추어 정규분포 형태로 변환한다.

인코딩 : 문자형 데이터를 컴퓨터가 이해할 수 있는 숫자형 데이터로 변환하는 과정이다.

  • 라벨 인코딩 : 범주형 데이터를 고유한 숫자로 일대일 매핑하는 방식이며 주로 서열 척도에서 사용한다. ex) 사과->1, 바나나->2
  • 원-핫 인코딩 : 고유값 개수만큼 열을 추가하여 해당하는 열에만 1을 표시하고 나머지는 0으로 표시하는 방식이며 대부분 원-핫 인코딩을 사용한다. ex) 사과->[1, 0], 바나나->[0, 1]

텍스트 전처리 : 텍스트 데이터의 경우, 문장을 쪼개는 토큰화나 의미 없는 단어를 지우는 과정이다.

데이터 라벨링

데이터 라벨링은 정답지를 데이터에 붙여주는 과정이다. 특히 지도학습 시에 성능을 크게 좌우한다.

라벨링 방법

  • 자동 라벨링 : AI가 자동으로 라벨을 붙이는 방식
  • 반자동 라벨링 : AI가 라벨을 인식하고 사람이 검토하는 방식
  • 직접 라벨링 : 사람이 직접 데이터를 확인하고 라벨링하는 방식

데이터 라벨링의 중요성

잘못된 라벨이 많거나 기준이 일관되지 않으면 모델이 잘못된 패턴을 학습하게 된다. 그렇기 때문에 정확성과 일관성을 갖고 라벨링을 하는 것이 중요하다.

라벨링 예시

이미지 데이터 : 고양이와 강아지 분류, 객체 위치 표시
텍스트 데이터 : 긍정/부정 감정 분류
음성 데이터 : 발화 내용, 화자 구분

0개의 댓글