240507 TIL #392 AI Tech #7 트리 모델 - 2

김춘복·2024년 5월 7일
0

TIL : Today I Learned

목록 보기
392/571

Today I Learned

오늘은 AI 수업 트리모델을 추가로 수강했다.


Tree model의 Hyper-parameter

기계학습 알고리즘이 데이터로부터 모델을 학습할 때 사용자가 직접 지정해주는 외부 매개변수

  • learning rate(학습률) : 손실 함수를 최소화할 때 가중치를 업데이트하는 정도

  • depth & leaves : 트리를 너무 깊게 만들거나 잎사귀들을 제한없이 모두 사용하면 overfitting이 될 수 있다.

  • column sampling ratio : 전체 피쳐(컬럼, 테이블의 세로)중 랜덤한 일부분만 사용해 트리를 만들어 특정 피쳐에 overfitting 되는 것을 방지한다. 다음 트리를 만들때도 랜덤으로 피쳐 선택 반복.

  • row sampling ratio : 이번엔 피쳐가 아니라 row(인스턴스)를 랜덤하게 선택해 트리를 만드는 방법. 특정 데이터에 overfitting 되는 것을 막는다. 다음 트리를 만들때도 랜덤으로 샘플 선택 반복.

실습

  • LightGBM과 Catboost는 pandas의 category 데이터 타입 가능

  • XGBoost는 numeric 데이터 타입만 가능하기 때문에 전처리가 따로 필요하다.

  • plot tree로 tree의 구조를 확인할 수 있다.(depth를 적절하게 조절하면 보기 편하다)


본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.

profile
Backend Dev / Data Engineer

0개의 댓글