위키북스의 파이썬 머신러닝 완벽 가이드 책을 토대로 공부한 내용입니다.
지도학습이란 label과 같은 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 학습 방법이다. 지도학습의 대표적인 유형인 분류(Cassification)는 학습 데이터로 주어진 데이터의 feature와 label을 ML 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터가 주어질 때 미지의 label 값을 예측하는 것이다.
- 분류의 다양한 ML 알고리즘
- 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes)
- 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression)
- 데이터 균일도에 따른 규칙 기반의 결정 트리(Decision Tree)
- 개별 class 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(Support Vector Machine)
- 근접 거리를 기준으로 하는 최소 근접(Nearest Neighbor) 알고리즘
- 심층 연결 기반의 신경망(Neural Network)
- 서로 다른(또는 같은) ML 알고리즘을 결합한 앙상블(Ensemble)
앙상블은 분류에서 가장 각광을 받는 방법 중 하나이다. 정형 데이터의 예측 분석 영역에서는 앙상블이 매우 높은 예측 성능으로 인해 많은 분석가와 데이터 과학자들에게 애용되고 있다. 앙상블은 서로 다른(또는 같은) 알고리즘을 단순히 결합한 형태도 있으나, 일반적으로 배깅(Bagging)과 부스팅(Boosting) 방식으로 나뉜다. 배깅 방식의 대표가 랜덤 포레스트(Random Forest)이며 뛰어난 예측 성능, 빠른 수행시간 등으로 많이 애용된다. 하지만 근래에는 부스팅 방식으로 지속 발전하고 있다. 가장 처음의 부스팅 방식인 그래디언트 부스팅(Gradient Boosting)은 뛰어난 예측 성능을 가졌지만 수행 시간이 너무 오래 걸려 최적화 튜닝이 어려웠다. 하지만 XgBoost(eXtra Gradient Boost)와 LightBGM 등 기존 그래디언트 부스팅의 예측 성능을 한 단계 발전시키면서도 수행 시간을 단축시킨 알고리즘이 계속 등장하면서 정형 데이터의 분류 영역에서 가장 활용도가 높은 알고리즘으로 자리잡았다.