랜덤 포레스트

조권휘·2022년 7월 17일
0

Codeit_머신러닝

목록 보기
12/13

앙상블(Ensemble)

  • 하나의 모델을 쓰는 대신, 수많은 모델들을 만들고 이 모델들의 예측을 합쳐서 종합적인 예측을 하는 기법

The Elements of Statistical Learning :
"결정 트리는 이상적인 머신 러닝 모델이 되기 힘든 한가지 특징을 갖는다. 바로 부정확성이다"
→ 결정 트리를 응용하면 성능이 좋은 다른 모델을 만들 수 있다.

랜덤 포레스트

  • 트리 모델들을 임의로 많이 만들어서 다수결 투표로 결과를 종합하는 알고리즘

Bagging - Bootstrapping

  • 갖고 있는 데이터 셋으로 다른 데이터 셋을 만들어내는 방법
  • 모든 모델을 정확히 똑같은 데이터 셋으로 학습시키면 결과 다양성이 떨어질 수 있다.
  • 이러한 문제를 해결하기 위해, 각 모델을 임의로 만들어준 Bootstrap 데이터 셋으로 학습시켜준다.
  • bagging : bootstrap 데이터 셋을 만들어내고, 모델들의 결정을 종합해서 예측을 하는 기법

Bagging을 이용한 랜덤 포레스트

  1. 속성 중 k개(2~4개)를 임의로 선정한 뒤 불순도를 계산하여 더 좋은 속성으로 root 노드의 질문을 정한다.
  2. 이후, 높이가 h일 때 까지 똑같이 속성 중 k개를 정하고 불순도를 계산하여 더 좋은 속성의 질문을 노드로 정한다.
  3. 위의 과정을 n번 반복하면 n개의 결정 트리가 생성되고, 이러한 n개의 결정 트리의 예측을 다수결 투표로 종합하여 결정한다.

본 포스트는 코드잇 강의를 공부하며 정리한 내용입니다! 자세한 설명은 "코드잇 머신러닝 강의를 참고해주세요!

+) 코드잇 강의 바로가기

profile
안녕하세요 :) Data/AI 공부 중인 한국외대 컴퓨터공학부 조권휘입니다.

0개의 댓글