[책 정리] 분류, 재표본추출, 선형모델 선택 및 regularization

장우솔·2022년 5월 8일
0

Statistic

목록 보기
2/5

4장-분류

로지스틱회귀

반응변수의 클래스가 두 개일 때, 로지스틱 모델을 사용한다.
로지스틱 모델은 적합을 위해 최대가능도 방법을 사용한다. 계수 추정치는 가능도함수를 최대화하도록 선택한다.

  • 계수 추정치의 정확도는 표준오차를 계산해서 측정할 수 있다.



LDA

일반적으로 레벨(수준)이 3이상인 질적 반응변수를 선형회귀를 위해 양적 반응변수로 변경하는 자연스러운 방법은 없다.
반응변수의 클래스가 두 개보다 많을 때, 선형판별분석(LDA)를 사용한다.

LDA를 사용하는 이유

  1. 클래스들이 잘 분리될 때 로지스틱 회귀모델에 대한 모수 추정치는 아주 불안정하다.
  2. n이 작고, 각 클래스의 설명변수 X의 분포가 근사적으로 정규분포이면 선형판별분석이 더 안정적이다.

실제 환경에서는 베이즈 분류기를 계산할 수 없다. 선형판별분석은 추정값을 이용해 베이즈 분류기를 근사하는 것이다. 판별함수가 선형함수이기 때문에 이름에 선형이 붙는 것이다.

LDA 분류기는 각 클래스 내의 상관관계가 없고, 관측치들이 공통의 분산을 갖는 정규분포를 따른다는 가정하에 파라미터들에 대한 추정값을 베이즈 분류기에 대입하여 얻는다. 정규분포로부터 추정된 평균과 분산을 사용하여 계산한다.

  • 사후확률 : 관측치에 대한 주어진 설명변수값에 대해 그 관측치가 k번째 클래스에 속하는 확률이다.

LDA는 왜 낮은 민감도를 가질까?

LDA는 총오류율이 가장 낮은 베이즈분류기에 근접하고자한다. 이는 오류가 어떤 클래스에서 발생하든 관계없이 잘못 분류되는 관측치 총수가 가장 낮은 것을 고를 것이다.

사후확률에 대한 임계치를 변경하는데는 trade-off가 있다. 임계치를 0.5로 사용하면 전체 오류율이 최소화된다. 그러나 (책169p) 임계치가 감소함에 따라 연체자(1) 중에서의 오류율은 지속적으로 감소하지만 비연체자 중의 오류율은 증가한다. 어떤 임계치가 가장 좋을지는 도메인 지식을 기반으로 이루어진다.

  • Roc 곡선 : 모든 가능한 임계치에 대해 2가지 유형의 오류를 동시에 나타내는 그래프이다.




QDA(이차선형판별분석)

LDA처럼 가우스분포를 따른다고 가정하지만 각 클래스가 자체 공분산행렬을 갖는다고 가정한다. 설명변수 간에 상관관계가 있어도 가정을 만족한다.

LDA, QDA 중 어떤 것을 선택할까?

편향분산 절충에 따라 다르다.
하나의 공분산행렬을 추정하는 데 P(P+1)/2개 파라미터에 대한 추정이 필요하다. QDA는 각 클래스(K개)에 대한 공분산행렬을 추정해야하므로 KP(P+1)/2개의 추정이 필요하다. 이로부터 LDA는 QDA보다 유연성이 훨씬 떨어지지만 낮은 분산을 갖는다. 하지만 여기에도 Trade-off가 있다. LDA가정이 잘 맞지 않으면 높은 편향 때문에 문제가 있을 수 있다.
훈련관측치가 비교적 작아서 분산을 줄이는 것이 중요하다면 LDA가 나을 수 있고, 훈련 셋이 아주 커서 분산이 주요 우려사항이 아니거나 각 클래스 공통의 공분산행렬을 갖는 가정이 맞지 않으면 QDA를 사용하는 것이 좋다.

QDA는 비모수적인 방법인 KNN과 LDA, 로지스틱 회귀 사이에서 절충한 모델이다. QDA는 2차경계를 가정하므로 선형방법들보다 더 넓은 범위의 문제들을 정확하게 모델링 할 수 있다.
KNN만큼 유연하진 않지만 결정경계의 형태에 대해 몇가지 가정을 하기에 훈련 관측치 수가 제한적인 경우엔 KNN보다 더 나은 성능을 낼 수 있다.

KNN은 어느 설명변수가 중요한지 알 수 없어 계수를 알지 못한다.





5장-재표본추출방법

훈련 데이터의 다른 서브셋을 이용하여 동일한 통계적 방법을 여러번 적합한다. 가장 일반적인 재표본추출 방법으로는 교차검증과 붓스트랩이있다. 교차검증은 검정오차를 추정하여 성능을 평가하거나 적절한 수준의 유연성을 선택하는데 사용될 수 있다. 모델 성능 평가과정은 모델 평가이고 모델의 유연성 선택과정은 모델 선택이다.

1. 검증셋 기법 – 관측치를 임의의 두부분으로 나눈다.(훈련셋과 검증셋)

검증오차는 어느 관측치들이 훈련셋과 검증셋에 포함되느냐에 따라 변동이 상당히 클 수 있다. 또한 작은 수의 관측치에 대해 훈련될 때 성능이 나빠지는 경향이 있으므로 검증셋 오차율은 (모델적합의 검정오차율을) 과대추정하는 경향이 있을 수 있다.

2. LOOCV(leave one out cross validation)

검증셋 기법과 비교해 훨씬 편향이 작다. 또한 여러번 수행해도 동일한 결과를 얻어 훈련셋, 검증셋 분할에 임의성이 없다. 하지만 n이 크면 모델 적합에 많은 시간이 필요하다.
최소제곱 선형회귀 또는 다항식 회귀를 사용하는 경우 LOOCV의 계산시간이 하나의 모델적합과 동일하게 되도록 하는 방법이 있다. (1-h(i))^2으로 나눈다. h(i)는 레버리지다.
이것은 보통의 mse와 같은데 i번째 잔차가 1-h(i)에 의해 나누어진다는 것만 다르다.

3. k-fold 교차검증

임의로 크기가 거의 같은 k개의 그룹으로 분할한다. 첫 번째 fold는 검증셋으로 취급하고 나머지 k-1개 fold에 대해 수행한다. k번 반복되며 매번 다른 검증셋으로 구한 검정오차 추정치 값들을 평균내어 계산한다.
k-foldcv는 loocv보다 검정오차율을 더 정확하게 추정한다. loocv는 편향은 작지만 분산이 크기 때문이다.

훈련오차는 적합의 유연성이 증가함에 따라 감소하는 경향이 있다. 그에 반해 검정오차는 u형태를 보인다. 따라서 훈련오차는 최적의 k를 선택하는데 사용될 수 없다.

4. 붓스트랩

붓스트랩은 추정량의 불확실성을 수량화하는데 사용되는 도구이다. 붓스트랩으로 계수 추정치 및 예측치의 변동성을 평가하는데 사용할 수 있다. 선형회귀적합에서 계수의 표준오차를 추정하는데 사용될 수 있다.
각 붓스트랩 데이터셋은 원래 데이터셋으로부터 복원으로 추출된 n개의 관측치를 포함한다.
SE(alpha(hat))=0.08 의 의미는 모집단의 랜덤표본에 의해 alpha와 alpha hat은 평균적으로 0.08만큼 다를 것이라고 에상한다.

붓스트랩 기법은 가정을 필요로 하지 않고, summary() 함수가 제공하는 것보다 표준오차를 더 정확하게 추정할 가능성이 높다.





6장-선형모델 선택 및 regularization

최소제곱적합을 다른 적합절차로 대체하여 선형모델을 개선할 수 있는 몇가지 방법이 있다.
다른 적합절차들이 더 나은 예측 정확도와 모델 해석력을 제공하기 때문이다.

n>p이면, 최소제곱추정치는 낮은 분산을 가지는 경향이 있고 따라서 검정 관측치에 대해서 좋은 성능을 낸다. 하지만 n이 p 보다 아주 크지 않으면 최소제곱적합에 많은 변동이 있어 과적합을 초래하고 훈련하는데 사용하지 않은 관측치에 대한 예측결과가 좋지 않을 것이다.

p>n이면 더 이상 유일한 최소제곱 추정치가 존재하지 않는다. 즉 분산이 무한대가 되어 최소제곱방법은 전혀 사용할 수 없게 된다.
이때, 추정된 계수들을 제한 또는 수축하여 무시해도 될만큼의 편향증가가 있지만 분산을 현저하게 감소시킬 수 있다. 그 결과 정확도를 상당히 개선할 수 있다.


최소제곱 대안

1. 서브셋(부분집합) 선택

p개의 설명변수 중에서 반응변수와 관련이 있다고 생각하는 서브셋 식별하는 것이다. 변수의 수가 줄어든 서브셋에 최소제곱을 사용해서 모델을 적합한다.

* 최상의 부분집합 선택 순서

1) M(0)은 설명변수를 하나도 포함하지 않는 영모델로 단순히 관측치에 대한 표본평균을 예측한다.
2) 2^p개의 가능한 모델 중에서 최고의 모델을 찾는 문제를 2단계로 나눈다. (p k)개의 모델 중 최고의 모델을 골라 M(k)로 지정하고 p+1개 모델 중 하나를 선택하는 문제로 축소한다. 모델에 포함된 변수의 수가 증가함에 따라 RSS는 단조감소하고 R^2은 단조증가하기 때문에 모델 고를 때 주의해야한다, 
3) 검정오차가 낮은 모델선택해야한다. 교차검증된 예측오차, cp, bic 조정된 r2 이용해 M(0),...M(p) 중 최고의 모델을 선택한다.

로지스틱 회귀인 경우 2)에서 RSS대신 이탈도를 사용해 모델 순위를 정한다.

  • 이탈도란?
    최대 로그우도를 –2배 한것이며 값이 작을수록 모델을 더 잘 적합한다.

분기한정기법(일부선택을 제외하는 기법)은 최소제곱 선형회귀에만 적용된다. p가 커지면 계산상의 이유로 최상의 부분집합 선택을 할 수 없다, 따라서 훨씬 제한된 모델들의 집합을 조사하는 단계적 방법이 있다.

* 전진 단계적 선택 순서

1) M(0)은 설명변수를 하나도 포함하지 않는 영모델로 단순히 관측치에 대한 표본평균을 예측한다.
2) M(k)에 하나의 설명변수를 추가한 모든 p-k개의 모델을 고려한다. 그 후 p-k개의 모델 중 최고를 골라 M(k+1)로 지정한다. 여기서 최고를 고를 땐 가장 작은 RSS, 가장 큰 R^2을 갖는 것으로 정의한다.
3) 교차검증된 예측오차, cp, bic 조정된 r2 이용해 M(0),...M(p) 중 최고의 모델을 선택한다.

전진 단계적 선택은 n<p인 고차원 설정에서도 적용할 수 있다. 왜냐하면 각 부분모델은 p>n이면 유일한 해가 제공되지 않는 최소제곱을 이용하여 적합하기 때문이다.

* 후진 단계적 선택 기법

n이 p보다 커야 사용할 수 있다. 완전 모델 적합이 가능해야한다.

* 하이브리드 방식

변수들이 순차적으로 추가되지만 새로운 변수를 추가한 후에 모델 적합을 더 이상 향상시키지 않는 변수가 있으면 제거할 수도 있다.

모델 크기에 대해 훈련오차를 조정하는 다수의 기법

  1. cp통계량
    낮은 검정오차를 갖는 모델에 대해 작은값을 가지는 경향이 있으므로 최고모델을 선택할 때 가장 작은 값을 갖는 모델을 선택한다.

  2. AIC기준은 최대 가능도에 의해 적합된 모델들로 구성된 하나의 커다란 클래스에 대해 정의된다. 오차들이 가우스분포를 따르는 모델일 경우 최대가능도와 최소제곱은 같다.

  3. BIC 통계량은 일반적으로 변수 수가 많은 모델에 더 심한 패널티를 부여서 그결과 cp보다 더 작은 크기의 모델을 선택한다.

  4. 조정된 r2은 값이 클수록 모델의 검정오차가 작다는 것을 의미한다.
    변수의 수가 증가함에 따라 RSS는 항상 감소하지만 d값에 따라 증가할수도, 감소할 수도 있다. 노이즈 변수들을 추가하는 것은 d를 증가시키므로 그 결과 조정된 R2를 감소시킨다.

  5. 추정된 검증오차가 바뀔 가능성이 있을 땐 one-standard-error 규칙을 사용하여 모델을 선택할 수 있다. 각 모델 크기에 대한 추정된 검정 MSE의 표준오차를 계산하고 검정 MSE 곡선에서 가장 작은 값의 1-표준오차 이내에 있는 검정오차가 가장 작은 모델을 선택한다. 모델들이 거의 비슷한 수준이면 가장 단순한 모델을 선택하고자 하기 때문이다.

2. 수축

p개의 설명변수 모두를 포함하는 모델을 적합하는 것이다. 하지만 추정된 계수는 최소제곱 추정치와 비교해 0으로 수축된다. 이러한 수축은 분산을 줄이는 효과가 있다.

예시) 능형회귀와 라쏘

3. 차원축소

p개의 설명변수를 m차원 부분공간으로 투영하는 것이다 (m<p) 그 다음에 m개의 투영은 최소제곱에 의해 선형회귀모델을 적합하는데 설명변수로 사용된다.

profile
공부한 것들을 정리하는 블로그

0개의 댓글