ML을 또 배워?라고 생각했었다.
나의 오만. 앞에꺼 대충 들었어도 이거 잘 들으면 전문가적인 포스를 내뿜을 수 있다.
예시코드들이 여태까지 예시로 보았던 보스턴, 타이타닉의 문제 예측이 중심이 아니고 현업에 쓰이는 ML 패키지들의 샘플코드들이 많이 담겨져있어, 나중에 프로젝트에 쓰기 좋겠다고 생각했다.
코드들을 잘 보관하여 잘 써먹어야지.
ML을 하면 우리가 많이 쓰게 될 LightGBM, XGBoost, CatBoost의 장단점과 차이를 정리해본다.
LightGBM
장점:
- 대용량 데이터에서 빠름.
- 메모리 효율적.
- 카테고리형 변수 자동 처리 가능.
단점:
- 작은 데이터셋에서는 오히려 느릴 수 있음.
- 과적합 우려 있음.
XGBoost
장점:
- 성능 좋고 튜닝 많이 됨.
- 다양한 파라미터 제공으로 유연한 모델링 가능.
- 병렬 처리 지원.
단점:
- 큰 데이터셋에서 느릴 수 있음.
- 파라미터 튜닝 복잡함.
CatBoost
장점:
- 카테고리형 데이터 처리에 강점 있음.
- 기본값으로도 좋은 성능 발휘.
- 자동으로 데이터 셔플링 해서 과적합 방지.
단점:
- 학습 속도가 LightGBM보다 느림.
- 파라미터 문서화 부족.
차이점
- LightGBM: 리프 중심 트리 분할 방식 사용. 대용량 데이터에서 빠르고 메모리 효율적임.
- XGBoost: 전통적 부스팅 알고리즘 사용. 다양한 파라미터와 병렬 처리 지원.
- CatBoost: 카테고리형 데이터에 강점 있음. 과적합 방지 기능 내장.
- 세 모델 모두 각자 장단점 있어서 데이터 특성 및 목적에 맞게 선택해야 함.