지도학습

조예빈·2024년 7월 3일
0

금융 공학

목록 보기
3/5

분류(Classificaton)

  • 학습데이터로 주어진 데이터의 피처(x변수)와 레이블(targert)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블값을 예측하는 것

DT와 Ensemble

DT

  • 매우 쉽고 유연하게 적용될 수 있는 알고리즘
  • 데이터의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적음
  • 예측 성능을 향상시키기 위해 복잡한 규칙 구조를 가져야 하며, 이로 인해 과적합(Overfitting)이 발생해 반대로 예측 성능이 저하될 가능성이 있음

Ensemble

  • 여러 개의 예측 성능이 떨어지는 학습 알고리즘을 결합해 확률적 보완과 오류가 발생한 부분에 대한 가중치를 계속 업데이트 하면서 예측 성능을 향상시킴

결정 트리

  • if/else로 스무고개를 하는 것과 비슷
  • 의사결정트리라고도 함
  • 분류와 회귀 모두 가능한 지도 학습 모델
  • 특정 기준(질문)에 따라 데이터를 구분하는 모델

데이터의 균일도

  • 데이터 세트에서 균일도는 분류 성능에 대한 정보를 제공함
  • 엔트로피를 이용한 정보 이득 지수와 지니계수가 대표적임

불순도(Impurity)

  • 해당 범주 안에 서로 다른 데이터가 얼마나 섞여 있는지를 의미하는 것
  • 순도로 표현함(불순도 이해하면 됨)
  • 순도가 높은 것은 서로 다른 데이터가 많이 섞여 있는 것임

엔트로피(Entropy)

  • 주어진 데이터 집합의 혼잡도를 의미
  • 불순도를 수치적으로 나타낸 척도
  • 엔트로피가 높은 것은 불순도가 높다는 뜻
  • 만약 엔트로피가 1이면 그것은 불순도가 최대라는 것을 의미

정보 이득(Information Gain)

  • 엔트로피를 개념으로 함
  • 결정트리는 정보 이득 지수(1-엔트로피지수)로 분할 기준을 정함 -> 정보 이득이 높은 속성을 기준으로 분할

지니 계수(Gini Index)

  • 불평등 지수를 나타낼 때 사용하는 계수
  • 0이 가장 평등하고 1에 가까워질수록 불평등함
  • 머신러닝에 적용될 때는 지니 계수가 낮을수록 데이터 균일도가 높은 것으로 해석되어 계수가 낮은 속성을 기준으로 분할
profile
컴퓨터가 이해하는 코드는 바보도 작성할 수 있다. 사람이 이해하도록 작성하는 프로그래머가 진정한 실력자다. -마틴 파울러

0개의 댓글

관련 채용 정보