y_bin.log
로그인
y_bin.log
로그인
지도학습
조예빈
·
2024년 7월 3일
팔로우
0
0
금융 공학
목록 보기
3/5
분류(Classificaton)
학습데이터로 주어진 데이터의 피처(x변수)와 레이블(targert)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블값을 예측하는 것
DT와 Ensemble
DT
매우 쉽고 유연하게 적용될 수 있는 알고리즘
데이터의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적음
예측 성능을 향상시키기 위해 복잡한 규칙 구조를 가져야 하며, 이로 인해 과적합(Overfitting)이 발생해 반대로 예측 성능이 저하될 가능성이 있음
Ensemble
여러 개의 예측 성능이 떨어지는 학습 알고리즘을 결합해 확률적 보완과 오류가 발생한 부분에 대한 가중치를 계속 업데이트 하면서 예측 성능을 향상시킴
결정 트리
if/else로 스무고개를 하는 것과 비슷
의사결정트리라고도 함
분류와 회귀 모두 가능한 지도 학습 모델
특정 기준(질문)에 따라 데이터를 구분하는 모델
데이터의 균일도
데이터 세트에서 균일도는 분류 성능에 대한 정보를 제공함
엔트로피를 이용한 정보 이득 지수와 지니계수가 대표적임
불순도(Impurity)
해당 범주 안에 서로 다른 데이터가 얼마나 섞여 있는지를 의미하는 것
순도로 표현함(불순도 이해하면 됨)
순도가 높은 것은 서로 다른 데이터가 많이 섞여 있는 것임
엔트로피(Entropy)
주어진 데이터 집합의 혼잡도를 의미
불순도를 수치적으로 나타낸 척도
엔트로피가 높은 것은 불순도가 높다는 뜻
만약 엔트로피가 1이면 그것은 불순도가 최대라는 것을 의미
정보 이득(Information Gain)
엔트로피를 개념으로 함
결정트리는 정보 이득 지수(1-엔트로피지수)로 분할 기준을 정함 -> 정보 이득이 높은 속성을 기준으로 분할
지니 계수(Gini Index)
불평등 지수를 나타낼 때 사용하는 계수
0이 가장 평등하고 1에 가까워질수록 불평등함
머신러닝에 적용될 때는 지니 계수가 낮을수록 데이터 균일도가 높은 것으로 해석되어 계수가 낮은 속성을 기준으로 분할
조예빈
컴퓨터가 이해하는 코드는 바보도 작성할 수 있다. 사람이 이해하도록 작성하는 프로그래머가 진정한 실력자다. -마틴 파울러
팔로우
이전 포스트
indexing, scaling, statmodels
다음 포스트
ANN
0개의 댓글
댓글 작성
관련 채용 정보