[혼공단 6기]혼공머신 4주차

Enter·2021년 8월 1일

혼공단 혼공머신 혼공챌린지

혼공단 6기

목록 보기

4/6

📖Chapter 05

📌결정 트리

▪ 예/아니오에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘.
▪ 결정 트리는 제한 없이 성장하면 훈련 세트에 과적합되기 쉬움.

가지치기: 결정 트리의 성장을 제한하는 방법

📌불순도

▪ 결정 트리가 최적의 질문을 찾기 위한 기준.

📌정보 이득

▪ 부모 노드와 자식 노드의 불순도 차이.
▪ 결정 트리 알고리즘은 정보 이득이 최대화되도록 학습.

📌특성 중요도

▪ 결정 트리에 사용된 특성이 불순도를 감소하는데 기여한 정도릉 나타내는 값.
▪ 특성 중요도를 계산할 수 있는것이 결정 트리의 장점.

📌검증 세트

▪ 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어 낸 데이터 세트.

📌교차 검증

▪ 훈련 세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고 나엄지 폴드에서는 모델을 훈련함.
▪ 이런 식으로 모든 폴드에 대해 검증 점수를 얻어 평균하는 방법.

📌그리드 서치

▪ 하이퍼파라미터 탐색을 자동화해 주는 도구.
▪ 탐색할 매개변수를 나열하면 교차 검증을 수행하여 가장 좋은 검증 점수의 매개변수 조합을 선택함.
▪ 마지막으로 이 매개변수 조합으로 최종 모델을 훈련함.

📌랜덤 서치

▪ 연속된 매개변수 값을 탐색할 때 유용.
▪ 탐색할 값을 직접 나열하는 것이 아니고 탐색 값을 샘플링할 수 있는 확률 분포 객체를 전달함.
▪ 지정된 횟수만큼 샘플링하여 교차 검증을 수행하기 때문에 시스템 자원이 허락하는 만큼 탐색량을 조절할 수 있음.

📌앙상블 학습

▪ 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘.

<사이킷런에서 제공하는 앙상블 학슴 알고리즘>

랜덤 포레스트

대표적인 결정 트리 기반의 앙상블 학습 방법.

부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만드는 것이 특징.

성능이 좋으며 안정적임.

엑스트라 트리

랜덤 포레스트와 비슷하지만 부트스트랩 샘플을 사용하지 않음.

랜덤하게 노드를 분할해 과대적합 감소시킴.

랜덤 포레스트보다 훈련속도가 빠르지만 더 많은 트리가 필요함.

그레이디언트 부스팅

깊이가 얇은 트리를 연속적으로 추가하여 손실 함수를 최소화하는 앙상블 방법.

성능이 뛰어나지만 병렬로 훈련할 수 없기 때문에 훈련 속도가 조금 느림.

학습률 매개변수를 조정하여 모델의 복잡도를 제어할 수 있음.

학습률 매개변수가 크면 복잡하고 훈련 세트에 과대적합된 모델을 얻을 수 있음.

히스토그램 기반 그레이디언트 부스팅

그레이디언트 부스팅의 속도를 개선한 것.

훈련 데이터를 256개의 구간으로 변환하여 사용하기 때문에 노드 분할 속도가 매우 빠름.