[데이터사이언스] Diary -15

Pream·2022년 3월 4일
0

결정트리 :

특성들을 기준으로 샘플을 분류하는데 마치 스무고개 하는것처럼 boolean의 조건으로 분류를한다.
결정트리의 비용함수로는 지니불순도(Gini Impurity or Gini Index)와 엔트로피(Entropy)가 있다. 결정트리는 이 값들을 점점 감소시키면서 분류합니다.

불순도(Imputiry)란?

-> 여러 범주가 섞여 있는 정도
-> ex) 만약 두 범주가 50%,50% 의 비율로 섞여있는 A가 있고 80%,20%의 비율로 섞여있는 50%,50% 의 비율 B가 있다면 A가 B보다 불순도가 높다.

불순도가 낮은경우 지니불순도나 엔트로피 모두 낮은값을 가지게 된다.

장점 : 직관적인 해석이 가능하다.
단점 : 과적합 발생 확률이 높고 데이터가 적을때 불안정하다.

랜덤포레스트:

여러개의 결정트리를 이용해 각 트리의 결과값을 다수결 혹은 평균을 측정하는 앙상블 방법.

앙상블(Ensemble) 방법 이란?
-> 여러 학습 모델을 만들어 그 모델들의 예측결과를 다수결 혹은 평균을 내어 예측하는 방법

여러개의 개별 트리가 학습하는 데이터세트는 전체 데이터에서 일부가 중첩되게 샘플링된 데이터 세트이다.
이렇게 여러개의 데이터 세트를 중첩시키면서 분리하는것을 부트스트랩(Bootstrapping) 방식이라 한다.

랜덤 포레스트의 기본모델인 결정트리와 일반 결정트리의 알고리즘 차이가 있는데
일반 결정트리는 데이터 분할시 모든 특성을 고려하는반면 랜덤 포레스트의 결정트리는 특성 n개중 k개의 특성을 선택하고 이 k개에서 최적의 특성을 찾아내 분할함.

랜덤포레스트에서 인코딩시:
onehot encoding vs ordinal encoding 어느것 선택?
-> 랜덤포레스트는 feature의 중요도(importance)를 제공하는데 이 중요도는 지니불순도에 따라 결과값이 달라진다. 노드가 중요할수록 불순도가 크게 떨어진다.onehot encoding은 0 혹은 1로만 구분지어 주기 때문에 종류를 나눠주는 분류 모델에서는 좀 더 확실하게 구분하기 위해 ordinal encoding으로 클래스를 다양하게 구분할 필요가 있어보인다.

profile
예비 데이터개발자

0개의 댓글