Q: Decision Tree model 장단점
장점: 결과를 해석하고 이해하기 쉽다.
단점: 과적합 되기 쉽다.
Q:랜덤 포레스트랑 결정 트리 차이
랜덤 포레스트는 과적합 방지가 잘됨.
Q:배깅이란 무엇이냐
부트스트랩을 병렬, 복원추출(sampling)로 집계하는것
OOB sample은 항상 생김 , 근데 쓸수도 있고 안쓸수도 있음
Q:Ordinal encoding을 하면 왜 트리모델에서 성능이 좋았을까?
원핫인코딩 vs 오디널인코딩
오디널:특성 개수가 늘어나지 않음 , 트리가 너무 복잡해지지 않음
원핫 인코딩에 비해서(원핫은 늘어남) 범주가 많을 때 더 유용.
Q:트리 앙상블이 결정 트리보다 상대적으로 과적합 피할 수 있는 이유는?
랜덤성, 트리 자체를 랜덤하게 셀렉해서 만드니까.
Q:랜덤포레스트 안의 작은 트리들은 과적합이 되면 안될까요?
그래도 괜찮다. 다른 랜덤 트리들이 보정해준다.
Confusion Matrix
F1 Score
precision과 recall의 차이 꼭 알아야함. (추가 정리 필)
시나리오에 따라 적용이 달라지기 때문에 중요한것
임계값 (추가 정리 필)
하이퍼파라미터 튜닝은 코랩 xx지...
송길영님 다시 ㅋㅋㅋ
방향성만 맞다면..내가 좋아하고 관심있는 것.
어려우니까 내가 여기 있는 거다.
+ㄱㅎ님의 블로그 코드와 ㅁㅈ님의 노션 개념 ㅋㅋㅋㅋ ^^