오늘은 AI 수업 트리모델을 추가로 수강했다.
기계학습 알고리즘이 데이터로부터 모델을 학습할 때 사용자가 직접 지정해주는 외부 매개변수
learning rate(학습률) : 손실 함수를 최소화할 때 가중치를 업데이트하는 정도
depth & leaves : 트리를 너무 깊게 만들거나 잎사귀들을 제한없이 모두 사용하면 overfitting이 될 수 있다.
column sampling ratio : 전체 피쳐(컬럼, 테이블의 세로)중 랜덤한 일부분만 사용해 트리를 만들어 특정 피쳐에 overfitting 되는 것을 방지한다. 다음 트리를 만들때도 랜덤으로 피쳐 선택 반복.
row sampling ratio : 이번엔 피쳐가 아니라 row(인스턴스)를 랜덤하게 선택해 트리를 만드는 방법. 특정 데이터에 overfitting 되는 것을 막는다. 다음 트리를 만들때도 랜덤으로 샘플 선택 반복.
LightGBM과 Catboost는 pandas의 category 데이터 타입 가능
XGBoost는 numeric 데이터 타입만 가능하기 때문에 전처리가 따로 필요하다.
plot tree로 tree의 구조를 확인할 수 있다.(depth를 적절하게 조절하면 보기 편하다)
본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.