[2024.01.02] Machine Learning_Preprocessing(1)

하은·2024년 1월 2일

[데이터] 제로베이스 데이터 취업스쿨

목록 보기

70/74

글자를 숫자로, 숫자를 글자로 바꿔줌
label_encoder 불러오고
fit - transform
inverse - transform

x' = x - min(x) / max(x) - min(x)

min = 0이면, x / max(x)가 된다. max = 100으로 나누면 1이 된다.
예) 서울시범죄현황데이터 다룰 때, 1000단위, 1자리로 발생하는 게 있었음. 다 양수니 max로 나눴었음.

표준정규분포
z = X - y(평균) / a(표준편차)

Xi - Q2 / Q3 - Q1
예) boxplot에서 Q1(1/4지점), Q2(중간), Q3(3/4 지점)
= 평균이 아닌 median을 0로 보는 것
50%의 데이터끼리를 나눠준 것

desicion tree는 scaler에 크게 영향받지않음