
머신러닝 종류
일반적인 ML Steps

회귀 모델
: 예측 대상이 연속형 수치 데이터인 경우

분류 모델
: 예측 대상이 범주형 데이터인 경우


평가지표연습


변수 많은 경우 최적의 회귀 계수 추정이 어려우므로 사용된 변수 선택 기법 (forward selection, backward selection)
-> 변수 선택 과정이 비연속적 방법으로 고차원의 상황에서 최적의 변수 집합 찾는 것 확신 불가
Penalized Regression : 벌점화 회귀 , 모델 평가 기준인 예측력과 안정성을 위해 기존의 비용 함수에 벌점함수를 더한 형태의 새로운 비용함수를 정의, 이러한 비용함수를 최소화하는 모수를 찾는 과정인 규제를 거침.
공통 원리로 SSE(잔차)에 Penalty를 더하여 [SSE+f(x)=penalty]를 함께 축소시키는 것을 목표로 함.

Ridge와 Lasso는 다중공산성을 정규화 시키는 방법

Ridge Regression : 과적합을 피하고 일반화 성능을 강화하는 방법 (L2 Norm Regularization)

LASSO (Least Absolute Shirinkage Selector Operator) (L1 Norm Regularization)

이진 분류
프로세스 개요
변환 과정
Odds(승산) (0~∞)


Logit(로짓) (-∞ ~ ∞)


역함수 ( 0 ~ 1)


XOR문제

4번은 로지스틱 회귀분석 또는 선형분류모델로 볼 수 없다.
Thresholds

Regression과 비교
ROC (Receiver Operating Characteristic) and AUC(Area Under the Curve)
임계값 변경에 따른 분류 결과 변동의 Trade-off 상황을 그래프로 요약하여 보여줌
Negative 중 위양율(False Positive Rate)를 x축에, Positive 중 진양율(True Positive Rate)를 y축에 표시
특이도 감소 속도에 비해 얼마나 빠르게 민감도가 증가하는지 나타
AUC = 1이면, 분류기가 Positive와 Negative를 완벽하게 분리

AUC = 0.5이면, 분류기가 Positive와 Negative를 구분하지 못함. (무작위 임의 선택과 같은 수준)


0.7~0.8정도면 fair, 0.8~0.9정도면 good, 0.9 초과 시 excellent
개념
활용 : 분류와 회귀 문제를 모두 다룰 수 있음.
방법
1) 거리 측정
Minkowski distance (민코우스키 거리)
Euclidean 거리와 Manhattan거리의 일반화 형태

Euclidean distance (유클리디안 거리)
Manhattan distance (맨해턴 거리)
2) 표준화 검토
3) 정확도 검토
4) 장점
5) 단점
예제

개념 : Bayes 법칙에 기반한 분류 기법
독립성을 가정한 기법 : Feature들이 모두 동등하게 중요하며 독립적이라는 가정, 이 가정사항이 다소 비현실적이어서 Naive라는 표현을 사용한다.
Bayse Theorem (베이즈 정리)

Laplace Smoothing

UnderFlow

Feature 개수가 증가 시 기하급수적으로 많은 데이터 필요함
활용 : 스팸메일필터링 등 텍스트분석 / 비정상 행위 탐지/ 일련 관찰 증상에 대한 의학 질병 진단
장점
단점
예제










