ML - Upstage 심화

Nary Kim·2024년 7월 22일
0

Upstage AI lab 3기

목록 보기
11/17
post-thumbnail

ML을 또 배워?라고 생각했었다.

나의 오만. 앞에꺼 대충 들었어도 이거 잘 들으면 전문가적인 포스를 내뿜을 수 있다.

예시코드들이 여태까지 예시로 보았던 보스턴, 타이타닉의 문제 예측이 중심이 아니고 현업에 쓰이는 ML 패키지들의 샘플코드들이 많이 담겨져있어, 나중에 프로젝트에 쓰기 좋겠다고 생각했다.

코드들을 잘 보관하여 잘 써먹어야지.

ML을 하면 우리가 많이 쓰게 될 LightGBM, XGBoost, CatBoost의 장단점과 차이를 정리해본다.

LightGBM

장점:

  • 대용량 데이터에서 빠름.
  • 메모리 효율적.
  • 카테고리형 변수 자동 처리 가능.

단점:

  • 작은 데이터셋에서는 오히려 느릴 수 있음.
  • 과적합 우려 있음.

XGBoost

장점:

  • 성능 좋고 튜닝 많이 됨.
  • 다양한 파라미터 제공으로 유연한 모델링 가능.
  • 병렬 처리 지원.

단점:

  • 큰 데이터셋에서 느릴 수 있음.
  • 파라미터 튜닝 복잡함.

CatBoost

장점:

  • 카테고리형 데이터 처리에 강점 있음.
  • 기본값으로도 좋은 성능 발휘.
  • 자동으로 데이터 셔플링 해서 과적합 방지.

단점:

  • 학습 속도가 LightGBM보다 느림.
  • 파라미터 문서화 부족.

차이점

  • LightGBM: 리프 중심 트리 분할 방식 사용. 대용량 데이터에서 빠르고 메모리 효율적임.
  • XGBoost: 전통적 부스팅 알고리즘 사용. 다양한 파라미터와 병렬 처리 지원.
  • CatBoost: 카테고리형 데이터에 강점 있음. 과적합 방지 기능 내장.
  • 세 모델 모두 각자 장단점 있어서 데이터 특성 및 목적에 맞게 선택해야 함.
profile
나는 무엇이 될것인가!!

0개의 댓글