missing count 누락값
string 데이터는 보통 범주형 데이터
어떤 형은 인디케이터, 어떤 형은 순위형
불균형 시험 데이터는 제거하는 것이 좋습니다.
결과를 왜곡할 수 있기 때문입니다.
데이터셋 확인시 초반에 꼼꼼하게 확인해야
나중에 많은 부분을 고칠 필요가 없다
TD transfromation
MD 머신 러닝 모델
Endpoint
unhealthy
healthy
앙상블 기법
Base Learner 단순하고 가벼운 모델
Weak Learner
Meta Learner
Strong Learner
배깅 복원 추출
랜덤 포레스트 : 복원 추출해서 각각 넣어줌
배깅 : 약한 언어들을 parallel 하게 학습
부스팅 : Sequential 모델, 이전 모델에서 계속 강화
대부분 부스팅 모델이 성능이 더 좋음
AdaBoosting
처음에 오류를 기록
오류를 크게 표시
반영해서 가중치
Gm(x) : 각 러너들
손실의 가중치를 계산
틀렸을 때, 반영
I 의 역할
같으면 0
다르면 1
파랑 +
빨강 -
12시 영역
빨간색
파란색
파란색
-0.37 +0.43 + 0.5
3시 영역
빨강
빨강
빨강
-0.37-0.43-0.5
Gradient Boosting Machine
각 단계에서 예측한 차이(잔차, residual)를 다음 단계 모델로 사용
차이를 계속해서 학습
첫 번째 트리가 80%를 맞췄을 때
못 맞춘 20% 관련해서 두 번째 트리
전 단계의 부족한 부분인 오차를 채워나감
Residual = 실제값 - 예측값
20번까지 해도 50번까지와 큰 차이가 없음
20번 이후로는 과적합 위험
Random Forrest 와 Boosted Decision Tree 비교시
정확도, 정밀도, 재현율 모두 Boosted 모델이 더 높게 나옵니다.
트리 모델은 분류 모델로 사용되지만, 회귀 알고리즘으로도 사용
푸아송 : 빈도
선형회귀 :
베이지안 : 조건부 확률
그 이전에 B가 일어났을 확률?
발렌타인 때 나에게 초콜릿을 준 사람이
나를 좋아해서 주었을 확률?
베이즈 확률 : 특정 사건의 발생 확률은 이전에 일어난 사건에 영향을 받는다는 이론
데이터가 영향을 줄 때 사용
CART (분류 및 회귀 나무)
회귀에 사용될 경우, 불순도 아닌 실측값과 예측값의 오차를 이용
첫번째는 구획, 구간을 나누기
두번째는 구간 내에서 가장 잘 표현하는 선을 그리기
의사결정나무를 내려가면서, 숫자를 반영
선형회귀로는 파악 어려움
x 10% 이하일 때 평균값과, 나머지 데이터들의 차이
RSS : Residual Sum of Square
잔차 제곱합
RSS 가 가장 작은 60%
이후로 가장 작은 40% 라는 방식으로 진행
MSE 와 유사한 개념