[혼공머신] 4주차 - 트리 알고리즘

김민영·2024년 1월 25일
0

혼공학습단

목록 보기
19/22
post-thumbnail

결정 트리

  • 결정트리
    • 질문에 대해 트리처럼 예, 아니오로 답을 하며 정답을 찾아 학습하는 알고리즘
    • 예측 과정 이해 쉬움, 성능 좋음
  • 불순도
    • 결정 트리가 최적의 질문을 찾기 위한 기준
  • 정보 이득
    • 부모 노드와 자식 노드의 불순도 차이
    • 결정 트리 알고리즘는 정보 이득이 최대화 되도록 학습함
  • 가지치기
    • 결정 트리의 과대 적합을 막기 위해 결정 트리의 성장을 제한
  • 특성 중요도
    • 결정 트리에 사용된 특성이 불순도를 감소하는 데에 기여한 정도
    • 결정 트리에서는 이를 계산할 수 있음

교차 검증과 그리드 서치

  • 검증 세트
    • 테스트 세트가 아닌, 훈련 세트의 일부
    • 하이퍼파라미터 튜닝 시, 모델 평가를 위해 사용
  • 교차 검증
    • 훈련 세트를 여러 폴드로 나누고, 한 폴드는 검증로, 나머지는 훈련용으로 사용하는 방식
    • 모든 폴드에 대해 진행 후, 검증 점수를 평균 냄
  • 그리드 서치
    • 하이퍼파라미터 탐색을 자동화하는 도구
    • 탐색할 매개변수를 나열하면, 교차 검증하여 가장 좋은 검증 점수의 매개변수 조합 선택. 이후 최종 모델 훈련
  • 랜덤 서치
    • 탐색 값을 샘플링할 수 있는 확률 분포 객체 전달
    • 지정된 횟수만큼 샘플링하여 교차 검증 수행 - 시스템 자원의 상황에 맞게 탐색량 조절 가능

트리의 앙상블

  • 앙상블 학습
    • 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 알고리즘
  • 랜덤 포레스트
    • 결정 트리 기반 앙상블 학습 방법
    • 부트스트랩 샘플 사용하고, 랜덤하게 일부 특성 선택
  • 엑스트라 트리
    • 결정 트리를 사용하여 앙상블 모델 학습
    • 부트스트랩 샘플을 사용하지 않고, 랜덤하게 노드 분할하여 과대 적합 감소
  • 그래이디언트 부스팅
    • 결정 트리를 연속적으로 추가하여 손실 함수 최소화하는 앙상블 방법
    • 훈련 속도가 느리지만 성능 좋음
    • 속도를 개선한 것이 히스토그램 기반 그레이디언트 부스팅

기본 미션

  • 교차 검증 그림으로 표현하기
profile
노션에 1차 정리합니당 - https://cream-efraasia-f3c.notion.site/4fb02c0dc82e48358e67c61b7ce8ab36?v=

0개의 댓글