
주 2회 ML & DL Study & Q&A 피드백 진행
해당 포스트
📗 의사결정나무
📗 앙상블 (배깅,부스팅,랜덤포레스트)
스터디원🙎♀️ @dbswls6685
Q. 랜덤포레스트는 이상치에 강하지만 부스팅은 이상치에 약한 이유는 무엇인가?
A. 부스팅은 오분류되는 값에 더 높은 가중치를 부여하여 오답에 더욱 집중 할 수 있게 한다. 이상치는 오답으로 오분류될 가능성이 크기 때문에 그만큼 이상치에 취약해질 수 있다.
Q. 탐욕 알고리즘이란?
A. 선택의 순간마다 당장 눈 앞에 보이는 최적의 상황만을 쫓아 최종적인 해답에 도달하는 방법이다. 그 순간에 대해서는 최적이지만 결과적으로 최종 최적해라고는 말할 수 없다.
Q. 사건의 정보량 개념 중에서 '자주 발생하는 사건일수록 그닥 많은 정보를 가지지 않는다'가 무슨 의미인가?

A. 정보이론에서 정보량이란 '놀람의 정도'를 의미한다.
놀람의 정도라는 것은 모두가 알만한 정보가 아니라 새롭고 특이해서 사람들로 하여금 놀람을 일으키는 정도라고 볼 수 있다.
식상한 정보일수록 정보량이 적고, 놀라움을 주는 정보일수록 정보량이 크다.
위 수식에서 p(x)가 커지면 결국 사건의 정보량이 점점 줄어들어 0에 수렴하게 된다.
즉, 같은 사건이 똑같이 일어날수록 많은 양의 정보를 가지지않는다.
Q. 가지치기 코드 중 max_depth를 2로 설정한 이유? 최대 깊이 제한은 어떻게 설정하는건가?
A. max_depth는 사람이 직접 설정 가능한 하이퍼파라미터 값이다.의사결정나무 정지 규칙을 참고하여 하이퍼파라미터를 조정해야한다.