
Classifier - 분류기
→ 회귀와 마찬가지로 분류기를 구축하는데 사용할 수 있는 train set과 test set이 존재
주어진 잔고(X1) 및 소득(X2) 값에 대해 부도(Y)를 예측하는 모델을 구축하는 방법
Y가 부도 금액처럼 정량적인 값이 아니라 범주형이기 때문에 선형회귀 모델을 사용하지 않음 *
예제는 정확히 분류되도록 가공된 것으로 실제 사례는 명확한 분류 관계를 보여주지 않을 수 있음*
Why?
Y가 정량적인 값이 아닌 범주형이면 선형회귀를 사용하지 않을까?
Because
So
Y가 dummy variable 일땐, 분류 분석을 하자!





두 개 이상의 클래스가 있는 응답 변수를 분류하고 싶을 땐, multiple-class extensions(다중 클래스 확장)보다는 섹션에서 배울 discriminant analysis(판별 분석)을 더 많이 사용
범주가 명확하게 구분되어 있는 경우, 로지스틱 회귀는 불안정한 결과를 보임
자료의 개수가 적을 때, 각 클래스에 대한 X의 분포가 정규분포와 유사하다면, 로지스틱 회귀보다 안정적임
3개 이상의 범주가 있을 시 성능이 더 뛰어남

: Pk(X)가 가장 큰 클래스에 할당


bayes classifier은 위 값이 가장 큰 클래스로 할당
but 일반적으로는 
에 대한 추정이 필요함 -> 추정치를 구한 후, 위의 식에 대입함 : LDA

: linear function of x
LDA decision reul depends on x only through a "linear" combination of its elements
LDA 방법론은 위와 동일
Traininh error rate
train set을 기반으로 모델을 학습시킴 -> train error rate 보다 test error rate 이 더 작음
Confusion Matrix
: classification 에서 실제값과 예측값을 시각화 하여 표현
ex> card default data

: LDA를 이용하여 분류할 경우 전체 error rate 은 낮지만, 연체자들의 분류는 75.5% 나 잘못 분류됨.
-> 단순 전체 error rate만을 accuracy의 기준으로 사용하는 것에는 무리가 있음
Sensitivity and Specificity

Sensitivity (민감도) : TP / (FN+TP)
실제 값이 positice인 대상 중에 예측과 실제값이 positive로 일치하는 데이터의 비율
Specificity (특이성) : TN / (TN+FP)
실제 값이 negative인 대상 중에 예측과 실제값이 negative로 일치하는 데이터의 비율
Why LDA has such sensitivity in Default data?
Default data 에서 sensitivity : 24.3%
Default data 에서 specificity : 99.8%
sensitivity -> default인 애를 default 로 얼마나 잘 분류 했는가? : card company에서 중요한 issue
but 전체 error rate은 매우 작지만, sensitivity는 좋지 않은 상황
threshold를 변화 시킴으로써 sensitivity or specificity 를 높일 수 있음.
Trade Off

sensitivity 를 증가 시키려고 임계값을 0.2로 조정하면, 전체 error rate이 증가함 ->trade off
default data 에서는 전체 error rate이 높아지더라도, sensitivity를 줄이는 것이 중요하기 때문에 임계값을 낮출 것
threshold 의 값은 domain knowledge 에 따라 결정하면 됨.
ROC curve

: two types of error for all possible thresholds 를 동시에 시각적으로 보여줌
LDA와 차이점
각 class 들이 각각의 공분산 행렬을 가짐 (LDA 에서는 등분산가정했음)

위의 값이 최대가 되는 class로 예측
위의 식 : x에 대한 quadradic fuction(not linear)
Wht prefer LDA to QDA, or vice-versa?
LDA : 등분산 가정해서 추정해야 될 모수의 개수 상대적으로 적음 -> variance 낮아지고 bias 높아짐 (trade off)
: train set의 개수가 상대적으로 적어 분산을 줄이는 것이 중요한 경우 사용
QDA : 등분산 가정 하지 않았기 때문에 추정해야할 모수의 개수 상대적으로 많음 -> variance가 높아짐
: train set의 개수가 커서 분산을 줄이는 것이 중요하게 고려되지 않거나, k class 에 대한 공분산 행렬의 가정이 명백하게 불가능할 경우 사용
Logistic Regression

LDA

where are functions of
fitting하는 방법 말고는 차이가 없어 비슷한 결과를 줄 수 있지 않는가?
LDA : 데이터가 공통 공분산 행렬을 가진 가우시안 분포를 가진다는 가정이 성립하는 경우 더 선호됨
logistic regression : 정규분포 가정이 성립되지 않는 경우
KNN :(non-parametric) decision boundary에 대한 가정 없음 -> decision boundary가 매우 비선형일 경우 선호됨
but it does not tell us which predictors are not important
knn과 Logistic Regression and LDA 사이의 절충안 역할
Logistic Regression and LDA보다 더 넓은 범위의 문제를 다룰 수 있음
knn처럼 flexible하지는 않지만, 학습데이터가 제한적인 경우에 decision boundary에 대한 가정이 있기 때문에 성능이 더 좋음