머신러닝 모델_랜덤 포레스트

은영·2023년 2월 23일

LG AImers 2기

목록 보기

9/10

랜덤 포레스트는 수업시간에도 많이 배웠지만 LG Aimers 해커톤을 준비하면서 좀 더 공부하게 된 모델이다.

랜덤 포레스트는 기존에 있던 머신러닝 모델 '의사결정 리'를 여러 개 만들어 분류 결과를 취합하여 예측값을 결정하는 앙상블 머신러닝 모델이다.

배깅에 랜덤 과정을 추가한 방법으로 트리를 형성해가는 과정은 train데이터에서 부트스트랩하여 각 부트스트랩한 데이터들에 맞게 의사결정트리를 만들어 배깅과 비슷하다. 그리고 각 트리들이 어떤 변수를 보고 예측할지 랜덤하게 추출한다.

그렇다면 의사결정트리는?

위 그림과 같은 구조가 의사결정트리이며 이러한 트리를 여러 개 만들어 결과를 취합하여 예측값을 결정하는 모델이 바로 랜덤포레스트이다.

랜덤포레스트의 성능을 높이기 위해 수정할 수 있는 파라미터는 다양하다. 파이썬에서 sklearn에서 randomforest를 사용할 때 변경할 수 있는 파라미터들을 보자.

주어진 데이터의 특성에 따라 해당 파라미터들을 적절하게 수정하여 사용할 수 있다.