데이터 취업 스쿨 스터디 노트 -(50) 정규화 Label Encoder, MinMax, Standard, robust

테리·2024년 8월 13일
post-thumbnail

Label Encoder

n개의 각각의 클래스에 0부터 n-1까지의 연속된 수치(라벨)를 부여하는 것

fit 한 후에 하나씩 트랜스폼을 이용해 바로 라벨을 확인할 수 있다.

fit, transform 동시에 하기

역변환

min-max scaling

  • 정규화
  • 값의 범위를 0~1로 바꾼다
  • 데이터의 최소값은 0, 최대값은 1로 하는 정규화.

데이터 프레임 생성 및 fit으로 학습

정규화

역변환

Standard Scaler

  • 평균 0, 표준편차 1 기준 정규화
  • 위에랑 하는 방법은 똑같다.(fit, transform, inverse, fit_transform)

robust scaler

  • 중앙값에 해당하는 데이터 Q2(50%), 사분위 범위 Q1(25%), Q3(75%)의 차이를 기준으로 정규화.
  • 중앙값:0, 사분위 범위:1 로 정규화함.
  • 데이터에 이상치가 많을 때 유용함.

비교를 위해 한번에 진행

빨간색이 이상치.
이 이상치 때문에 minmax, standard는 영향을 많이 받음.
하지만 robust는 중앙값을 기준으로 하기 때문에 큰 영향을 받지 않음.

0개의 댓글