앙상블 모델의 한 종류로 기본 모델로 Decision Tree를 사용한다.
데이터가 선형/비선형, 회귀/분류에 상관없이 사용할 수 있다. (회귀-평균/분류-최빈값)
robust한 정확성, 적은 훈련 시간, 해석의 용이성 등으로 가장 강력한 머신러닝 알고리즘 중의 하나다.
기존의 결정트리 모델은 나무가 하나였지만, 그 나무를 무작위로 여러개 묶어서 사용한다.(아무래도 Tree의 집합이 Forest라서 그런듯... 무릎을 탁 치는 네이밍센스.. ^^bb)
* 앙상블 모델: 하나의 데이터로 여러 종류의 머신러닝 모델(Weak Base Learner, 기본모델)을 만들어 학습하는 방법. 여기에서 사용되는 Bagging 말고도 Stacking, Boosting 등이 있다.
** 기본모델(Weak base model)과 기준모델(Baseline model)
기본모델은 앙상블 모델처럼 여러 모델을 하나로 합쳐서 새로운 모델을 만들 때 기본 재료가 되는 모델. 여기서는 Decision tree를 사용해서 Random Forest를 만들었다. 반면, 기준모델은 그 의미가 전혀 다르다. 예측 모델의 성능을 측정하는 가장 단순하고 직관적이고, 최소한의 성능을 나타내는 기준이 되는 모델이다. 회귀에서는 타겟의 평균값, 분류에서는 타겟의 최빈값처럼 말이다.
통게학에서는 Random하게, 무작위로 샘플을 재표집하는 것을 의미한다. 추출하는 방법은 복원 추출! 샘플을 뽑더라도 다시 그 샘플을 집어놓고 새로 뽑는 것을 뜻한다.
Bagging은 Bootstrap AGGregatING의 줄임말로 분류/회귀 분석에서 사용되는 머신러닝 모델의 알고리즘 중 하나다. 랜덤포레스트 모델에 비추어 보면 Bootstrap data를 사용하고, 데이터를 분석하기 위해 결정나무 모델을 사용하는 것으로 이해할 수 있겠다. Bagging은 모델을 훈련시킬 때 분산을 줄이게 된다.
Bootstrapped data set을 만들 때에 새로운 데이터 셋에 포함되지 않은 데이터들을 의미한다.
예) x1~x10까지 있을 때, 랜덤하게 복원 추출 10회를 했을때 [x1, x3, x2, x1, x7, x8, x10, x3, x2, x10] 가 Bootstrapped data set에 들어가서 모델을 훈련시키게 되고, 포함되지 않은 x4, x5, x6, x9가 OOB sample이 된다.
이 샘플들로 훈련된 모델을 검증(Validation)하거나 테스트를 진행한다. 이렇게 oob sample로 검증을 할 때 나오는 오류 값이 'out-of-bag error'로 모델의 성능을 평가하는 지표가 된다.
보통 Original data set의 약 1/3(36.8%)정도가 OBB sample이 된다고 한다. (수식으로 증명되어 있음)
Step1. Bootstrapped data set을 만든다. (데이터의 무작위 추출)
Step2. Step1에서 만들었던 Bootstrapped data set을 활용해 결정나무 모델을 만든다. 하지만 노드에 사용하는 변수(피쳐, 특징, 컬럼 등)는 모두 랜덤하게 사용한다. (변수의 무작위 추출) 그렇게 만들어진 결정나무 모델의 합이 바로 '랜덤포레스트 모델'이 된다.
Step3. OOB sample을 활용하여 만들어진 랜덤포레스트 모델을 검증(Validation) 혹은 Testing할 수 있다. 이미 답을 알고있는 훈련 모델에는 적용하지 않고(당연히!!), OBB sample이 훈련에 사용하지 않은 결정나무 모델에 사용된다.
OHE(One_Hot_Encoder)와의 차이점은?
트리기반 모델에서는 그럼 어떻게 해야 하나요???: 트리모델은 특성 중요도를 위해 컬럼을 분할하지 않는 것이 좋다. 그렇기 때문에 Ordinal이 더 좋다고 할 수 있다.
다른 말로 다시 이야기를 하자면, 트리구조에서는 중요한 특성일수록 상위 노드에서 사용(분할)이 된다. 그래서 Cardinality를 많이 만들어버리는 OHE는 똑같이 중요한 특성을 쪼개버리기 때문에 (마치 춘추전국시대....) 모델의 퍼포먼스가 떨어질 수 있다.