앙상블 기법
- 앙상블은 전통적으로 Voting, Bagging, Boosting, Staging 등으로 나눔
- 보팅과 배깅은 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식
- 보팅과 배깅의 차이점은 보팅은 각각 다른 분류기, 배깅은 같은 분류기를 사용
- 대표적인 배깅 방식이 랜덤 포레스트
부스팅의 개요
Adaboost
- step 1
- step 2
- step 3
- step 4
부스팅 기법
Bagging = Boostrap AGGreganING
배깅과 부스팅의 차이
Wine data
pipeline이 아니라 직접 StandarScaler를 적용
Scaler 적용후 데이터 나누기
- 이 상태에서 cross-validation을 한다면 X_train만 대상이 된다.
모든 컬럼의 히스토그램 조사
잘 분포되어 있는 컬럼이 좋을 때가 많다.
quality 별 다른 특성이 어떤지 확인
quality에 대한 나머지 특정들의 상관관계
taste 컬럼의 분포
다양한 모델을 한번에 테스트
결과를 저장하기 위한 작업
cross-validation 결과를 확인
RandomForest가 유리해 보인다
테스트 데이터에 대한 평가 결과