[ML] 적절한 스케일링 방법

data_buddha·2023년 10월 7일
0

우선, 표준화와 정규화를 통칭하여 '스케일링'이라고 표현함

데이터 컬럼별로 분포를 뽑아서 분포에 맞는 스케일링을 적용하려고 하는데 어떤 분포에 어떤 스케일링이 효과적일까?

  • 일반적으로 스케일링은 개별 feature내에서 데이터들이 skew되었거나, 서로 다른 feature들 간 크기의 척도가 극명하게 차이가 날 경우에 적용

  • 하지만 머신러닝 알고리즘이 개선되면서 스케일링의 효과가 생각보다 크지 않음

  • 트리 계열에서는 스케일링의 효과가 미미함

  • 선형 계열(선형회귀, 로지스틱 회귀, SVM, K-nearest)이나 딥러닝 적용할 때 스케일링을 고려

  • 하지만 선형 계열도 스케일링 적용 유무에 따라 성능 향상이 필연적인 것은 아님

  • 즉, 직접 적용해봐야함

  • 그러나 딥러닝은 데이터 스케일링이 필수

  • 딥러닝의 경우, 비교적 큰 값을 가지면 상대적으로 최적화하기 어려운 특성을 가짐

  • 결론적으로, 어떤 분포에 어떤 스케일링을 적용하면 성능이 향상된다는 만능의 방법은 없음

  • 따라서, 적용 전 후 결과로 판단을 해야함

profile
来日方长 : 앞길이 구만리 같다; 앞길이 희망차다. 장래의 기회가 많다.

0개의 댓글