데이터 정규화와 표준화

dkdiek·2024년 11월 2일

데이터분석

목록 보기
8/14

정규화

데이터 값의 범위를 0~1 사이로 변환. 이 방법으로 데이터 군 내에서 특정 데이터의 위치를 확인할 수 있다. 이 방법은 보통 데이터 군 내에서 특정 데이터 위치를 확인하고 싶을 때 사용한다. 과거 대비 현재 데이터 위치 파악. (e.g., 과거 하루 코로나 19 확진자 수 대비 금일 코로나 19 확진자 수가 어느 정도 위치인지 확인.)

  • 정규화 = (요솟값 - 최솟값) / (최댓값 = 최솟값)
    위 공식으로 데이터 특성 내 가장 큰 값을 1로, 가장 작은 값을 0으로 변환하다.

표준화

데이터가 평균을 기준으로 얼마나 떨어져 있는가를 나타낸다. 단순 몸무게만 보면 마른 사람인지 뚱뚱한 사람인지 알 수 없다. 몸무게 데이터를 표준화해서 평균 0을 기준으로 몸무게가 음수 값이 나오면 마른 편, 양수가 나오면 살찐 편임을 알 수 있다.

  • 표준화 = (요솟값-평균) / 표준 편차
    어떤 특성 값이 종 모양의 정규 분포를 따른다고 가정하고 값들을 0의 평균, 1의 표준 편차를 갖도록 변환해주는 것이다.

0개의 댓글