이번에는 아웃라이어(Outlier)를 처리하는 방법에 대하여 알아봅니다.
아웃라이어는 Tree-based model에서는 별문제가 되지 않지만 linear model과 같은 선형 결합을 사용하는 모델에서는 모델의 성능을 크게 악화시키는 요인이 될 수 있습니다.
아웃라이어로 판단되는 데이터를 제거해버리는 방식입니다.
data normality를 높여주기 때문에 linear model의 경우 효율적입니다.
하지만 아웃라이어에 중요한 정보가 포함되어 있다면 이를 모델에 반영하지 못하는 생길 수 있습니다.
데이터를 변환하는 방식입니다.
세부적으로는 전체 데이터에 를 취하는 logarithmatic transformation과 root를 취하는 square root transformation이 있습니다.
극단 값의 데이터들이 더 크게 효과를 받으므로, 좀 더 데이터 분포를 normailze하게 만드는 효과가 있습니다.
[1] "So which algorithm to use". https://medium.com/@aaabulkhair/so-which-ml-algorithm-to-use-d2484239f448