1) 의사결정나무(Decision Tree, DT)
나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법
1) 랜덤 포레스트
의사결정나무의 과적합과 불안정성에 대한 문제를 해결하기 위해 나무트리를 여러개 만들어 숲을 만드는 것
배깅(Bagging)의 원리
- 언제나 머신러닝은 데이터의 부족이 문제
- 이를 해결하기 위해 Bootstrapping + Aggregating 방법론
- Bootstrapping : 데이터를 복원 추출해서 유사하지만 다른 데이터 집단을 생성
- Aggregating : 데이터의 예측, 분류 결과를 합치는 것
- Ensemble(앙상블) : 여러 개의 모델을 만들어 결과를 합치는 것
Tree를 Forest로 만들기
1) 하이퍼 파라미터의 개념
2) 거리의 개념
데이터간의 유사도를 측정할 때 자주 등장
거리 계산에 단위의 영향이 크기 때문에 표준화는 필수!
여러 개의 약한 학습기를 순차적으로 학습하면서 잘못 예측한 데이터에 가중치를 부여하여 오류를 개선해나가는 학습 방식