[2024.01.02] Machine Learning_Preprocessing(1)

하은·2024년 1월 2일
0

- label_encoder

글자를 숫자로, 숫자를 글자로 바꿔줌
label_encoder 불러오고
fit - transform
inverse - transform

- min-max scaling = 정규화

x' = x - min(x) / max(x) - min(x)

min = 0이면, x / max(x)가 된다. max = 100으로 나누면 1이 된다.
예) 서울시범죄현황데이터 다룰 때, 1000단위, 1자리로 발생하는 게 있었음. 다 양수니 max로 나눴었음.

- standard scaler = 표준화

표준정규분포
z = X - y(평균) / a(표준편차)

- robust scaler

Xi - Q2 / Q3 - Q1
예) boxplot에서 Q1(1/4지점), Q2(중간), Q3(3/4 지점)
= 평균이 아닌 median을 0로 보는 것
50%의 데이터끼리를 나눠준 것


Desicion tree를 통해 와인데이터 분석
https://github.com/PinkWink/ML_tutorial/blob/master/dataset/wine.csv


- 데이터 전처리: min-max scaler, standard scaler

desicion tree는 scaler에 크게 영향받지않음

0개의 댓글