rjh.log
로그인
rjh.log
로그인
교차검증 앙상블 (Cross-Validation Ensemble) & 스태킹 앙상블 (Stacking Ensemble)
Ryu Jihoon
·
2024년 9월 24일
팔로우
0
부스트캠프 AI Tech RecSys
목록 보기
18/27
교차검증 앙상블 (Cross-Validation Ensemble) & 스태킹 앙상블 (Stacking Ensemble)
1.
교차검증 앙상블 (Cross-Validation Ensemble)
개념
교차검증 앙상블
은
k-fold 교차검증
을 활용하여, 여러 개의 학습 모델을 훈련하고 그 결과를 앙상블하는 기법입니다.
일반적인 교차검증 방식에서, 데이터를 여러 개의 부분집합으로 나누어 각 부분집합에 대해 학습과 검증을 반복적으로 수행한 후 결과를 결합합니다.
과정
데이터를
k개
로 나누어
k-fold 교차검증
을 수행.
각 fold마다 모델을 학습하고, 검증 데이터를 이용하여 평가.
각 fold에서 나온 예측 결과를 평균 또는 다수결 등으로 결합하여 최종 예측을 만듦.
특징
과적합 방지
: 데이터를 여러 번 나누어 사용함으로써 과적합을 방지하고, 모델의 일반화 성능을 향상시킴.
신뢰도 향상
: 다양한 데이터 분할에 대해 모델을 학습하므로 더 신뢰할 수 있는 예측 결과를 얻을 수 있음.
장점
모델의
일반화 성능
이 향상됩니다.
더 많은 훈련 데이터를 활용
할 수 있어 성능이 좋아질 가능성이 큼.
단점
시간이 많이 소요
될 수 있음. 각 fold마다 모델을 학습시키기 때문에 계산 비용이 커질 수 있음.
2.
스태킹 앙상블 (Stacking Ensemble)
개념
스태킹 앙상블
은
여러 모델
의 예측 결과를
메타 모델(meta-model)
로 결합하는 방식의 앙상블 기법입니다.
즉, 서로 다른 모델들의 예측 결과를 다시 입력 데이터로 사용하여, 최종 예측을 생성하는
메타 학습기
를 학습합니다.
과정
여러 개의
베이스 모델(base model)
을 학습시킴. (예: 결정 트리, 로지스틱 회귀, SVM 등)
각 베이스 모델의 예측 결과를 모아
새로운 특성
으로 만듦.
이 새로운 특성을 입력으로 사용하여
메타 모델
을 학습시킴.
메타 모델의 결과를 최종 예측으로 사용.
특징
메타 학습기
를 통해 각 모델의 예측을 결합함으로써 더 나은 성능을 기대할 수 있음.
베이스 모델과 메타 모델 간에 다양한 알고리즘을 사용할 수 있어
다양성
이 높아짐.
장점
여러 모델의
강점을 결합
할 수 있음. 개별 모델의 약점을 메타 모델이 보완할 수 있음.
다양한 모델 조합
을 통해 성능을 극대화할 수 있음.
단점
복잡성
: 스태킹 앙상블은 기본 모델과 메타 모델을 모두 학습시켜야 하기 때문에 계산 비용이 큼.
과적합
의 위험이 존재할 수 있음. 특히 메타 모델이 복잡해질 경우 과적합 위험이 있음.
교차검증 앙상블 vs 스태킹 앙상블
교차검증 앙상블
스태킹 앙상블
주요 개념
여러 모델을 교차검증 방식으로 결합
여러 모델의 예측 결과를 결합하여 메타 모델 학습
모델 간 결합 방식
교차검증을 통해 결합
메타 학습기를 사용하여 결합
장점
과적합 방지, 일반화 성능 향상
모델의 다양성을 활용해 성능 극대화
단점
시간이 오래 걸릴 수 있음
메타 모델에 따른 과적합 위험, 계산 복잡도 증가
적용 예시
다양한 데이터 분할에 대해 모델 성능 확인
베이스 모델의 강점을 메타 모델로 결합
Ryu Jihoon
CSE Junior
팔로우
이전 포스트
모델의 편향과 분산, 배깅과 부스팅
다음 포스트
하이퍼파라미터 최적화 (Hyperparameter Optimization)
0개의 댓글
댓글 작성