모델(Model): XGBoost, LightGBM, CatBoost

calico·2025년 11월 25일

목록 보기

120/163

XGBoost가 실무에서 많이 사용되는 이유

XGBoost는 구조적 데이터 환경에서 성능, 안정성, 운영 편의성이 검증된 모델입니다.

XGBoost는 다음과 같은 테이블형 데이터에서 성능이 안정적으로 높게 나옵니다.

특히 결측치나 이상치가 포함된 구조적 데이터에서 성능이 잘 나와 실무 활용도가 높습니다.

아래 최적화 기능을 기반으로 안정적인 학습 속도를 제공합니다.

대규모 데이터(수백만 row)에서도 일정한 속도와 성능을 유지합니다.

XGBoost는 결측치(NaN)를 자동으로 최적 방향으로 분기시키는 방식을 사용합니다.
따로 imputation 과정을 두지 않아도 되므로 전처리 작업이 줄어듭니다.

Gradient Boosted Tree 기반으로 변수 간 상호작용, 비선형 패턴을 자동으로 학습합니다.

예:

따로 복잡한 feature engineering을 하지 않아도 효과가 나타납니다.

XGBoost는 다양한 파라미터를 제공하지만, 실무에서는 아래 5개만으로 대부분의 성능 조정이 이뤄집니다.

이 조합만으로도 모델의 성능·속도·과적합을 효과적으로 제어할 수 있습니다.

트리 기반 모델이기 때문에

등을 활용한 설명 보고서 작성이 용이합니다.

리스크·운영 부서 요구사항에도 대응하기 좋습니다.

LightGBM은 속도가 빠르지만,

CatBoost는 기본값 성능이 좋지만,

반면 XGBoost는

운영 리스크가 낮습니다.

항목	XGBoost	LightGBM	CatBoost
학습 속도	보통, 안정적	매우 빠름	중간
성능	구조적 데이터에서 강함	대규모 데이터에서 우수	범주형에서 강함
범주형 처리	직접 인코딩 필요	인코딩 필요	자동 처리
결측치 처리	자동 처리 우수	자동 처리	자동 처리
튜닝 난이도	비교적 단순	민감함	기본값도 우수
재현성	높음	다소 변동 가능	매우 높음
대규모 데이터	안정적	매우 우수	보통
GPU	빠름	가장 빠른 경우 많음	무난
모델 해석	SHAP 지원	SHAP 지원	SHAP 지원
요약	안정성·재현성	속도·대용량	범주형·재현성