앙상블 기법에는 bagging, boosting 등이 있다.
boosting의 경우 이전 데이터를 참조하여 다음 데이터를 조작하는 방식이라고 한다.
기반인 GB..M?이었나? 시간이 상당히 오래 걸린다. 다만 이를 보완하기 위한 여러가지 기법이 있다. XGBoost? 등.
수업에는 앙상블 기법, Logistic Regression 등을 활용하여 Kaggle의 신용카드 사기 확인하기를 하고 있다.
log를 활용해서 치우친 distribution을 조정하고, kNN을 활용하여 oversampling을 하는 것을 확인했다.
여러 preprocessing과 데이터 조작을 통해 모델의 평가수치가 올라가는 것을 확인했다. 신기했다.
데이터가 추가적으로 공급되는 것이 아닌데, 예측 성능이 높아지는 부분이 재미있다. 하지만 의문 또한 존재한다.
알고리즘이 어떤 식으로 동작하는지 모르는 상태에서, 이리저리 굴려보면서 예측 성능만 높아진다면 무조건 좋은 것일까?