6장 - 선형모형선택과 규제(1)

cmkkws·2025년 3월 3일

본 포스팅의 내용은 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, Jonathan Taylor (2023), 「An Introduction to Statistical Learning with Applications in Python」, Springer 를 참고하였습니다.

회귀분석에서 선형모형을 사용해 반응변수와 예측변수의 관계는 다음과 같이 나타낼 수 있다.

이 모형은 앞 장에서 알 수 있듯이 최소제곱법으로 적합한 것이다.

이번 장에는 최소제곱으로 적합된 선형모형의 틀을 확장 시킨 접근법에 대해 학습할 것이다.

비선형에 대한 적합법을 다루기 전 최소제곱적합에서 일부 적합을 대체하는 적합 절차에 대한 학습을 논의할 것이다.

다른 적합 절차를 사용할 때 다음과 같은 장점을 가질 수 있다.

예측 정확도(prediction accuracy): $n\gg p$ 일 경우 추정값의 분산이 작아져 성능이 좋지만, 반대의 경우 '대부분의 경우' 성능이 나쁘다.
이러한 문제점을 계수를 제약(constrainig), 축소(shrinking)을 통해 분산을 줄이고 편향을 조절할 수 있다.
모형 해석 가능성(model interpredtability): 관련 없는 변수를 계수 추정값을 0으로 해 제거함으로써 불필요한 복잡성을 제거할 수 있다.(특징 선택(feature selection), 변수 선택(variable selection))

최소제곱법 대신 사용할 대안 세 가지의 방법을 논의할 것이다

부분집합선택(subset selection): 예측변수에서 관련있는 예측변수의 부분집합을 선택하는 접근법. 이후 최소제곱법을 이용해 모형을 적합한다.
축소(shrinkage): 예측변수를 모두 포함에 모형에 적합한다. 추정된 계수는 최소제곱 방법보다 0의 방향으로 축소해 분산을 감소시킨다. 축소 유형을 선택해 변수의 중요도를 선택한다.
차원축소(dimension reduction): 예측 변수 $p$ 개를 $M-$ 차원 부분공간으로 투영(projection)하는 방법이다.( $M<p$ )
변수의 M가지 선형결합을 계산해(투영) 이를 바탕으로 예측변수를 만들어 최소제곱법으로 선형회귀모형을 적합한다.

6.1. 부분집합선택

여기에서는 최량부분집합선택(best subset selection)과 단계적 모형선택(stepwise model selection)에 대해 학습한다.

6.1.1. 최량부분집합선택

위의 방법을 수행하기 전 먼저 예측변수 $p$ 개를 모든 조합 각각에 대해 최소제곱 회귀를 적합해야한다. (한 개일 때, 2개일 때 가능한 모형 전부)
그 다음 최량(best) 모형을 찾아낸다.
$2^p$ 의 경우에서 최고의 모형을 선택은 쉽지 않기 때문에 다음과 같이 두 단계로 나누어 처리한다.

$M_0$ 을 영모형이라고 했을 때 관측에 대한 표본 평균을 예측한다.

$k=1,2,...p$ 일 때
(a) k개의 예측 변수를 포함하는 $\begin{pmatrix} p \\ k \end{pmatrix}$ 개의 모형을 모두 적합한다.
(b) 그 중 가장 좋은 모형을 $M_k$ 라고 하자.(최소 RSS, 최대 $R^2$ )

$M_0, ..., M_p$ 중 가장 좋은 모형을 선택한다. 검증 세트에서의 예측 오차, AIC, BIC, 수정된 $R^2$ , 교차검증 방법을 사용한다.

이를 통해 $2^p$ 경우에서 $p+1$ 개의 모형에서 하나를 찾는 문제로 줄인다.

이 방법이 총 계산 수를 나누는 것이 아니다. 부분집합별로 최적의 모형을 선택한 후보들 중에 하나를 고르는 것이기 때문에 모형 선택을 더 직관적으로 할 수 있게 한다.

[그림 6.1] credit데이터 세트에서 10개의 예측변수로 구성된 모든 부분집합을 포함하는 각 모형의 지표를 표시

이 그래프를 보면 그냥 제일 오른쪽이 두 지표를 만족하니까 선택해야겠다는 생각을 할 수 있다.

하지만 2장을 보면 알 수 있듯이 이러한 모형은 훈련 오차가 작아지는 효과를 가지지만 테스트 오차를 줄이는 것을 단정할 수 없다.

따라서 검증 세트에서 다양한 검증 방법을 통해 가장 좋은 모형을 선택한다.

최량부분집합선택은 최소제곱 이외에도 로지스틱 회귀 같은 유형의 모델에서도 적용 가능하다.

2단계에서 RSS 대신 이탈도(deviance)를 사용한다. 최대 로그 가능도에 -2를 곱한 값으로 이탈도가 작을수록 더 잘된 적합이다.

해당 방법의 한계는 예측변수 p가 늘어날수록 계산 기법으로 줄인다 하더라도 고려할 모형의 수가 매우 많아진다.( $2^p$ 일 때, $p=40$ 이라면?)

6.1.2. 단계적 선택

이러한 한계점으로 사용하기 힘든 점이 있고, 또한 변수가 매우 많아지면 과적합을 이르켜 분산이 커져 성능이 나빠진다.

단계적 전진선택법
위 방법은 계산 측면에서의 효율적인 대안이다.
왜냐하면 예측변수가 없는 모형에서 하나씩 추가하는 과정을 가지기 때문이다.

$M_0$ 을 영모형을나타낸다.

$k=0,...p-1$ 일 때
(a) $M_k$ 에 예측변수를 하나 더 추가한 모형을 모두 살펴본다.
(b) 가장 좋은 모형을 선택한다.(최소 RSS, 최고 $R^2$ )

검증세트에서 앞의 알고리즘과 같은 방식으로 가장 좋은 모형을 선택한다.

위의 방식을 반복했을 때, $1+p(p+1)/2$ 개의 모형을 적합하므로 최량부분집합선택일 때보다 매우 감소된 모형 적합 계산 수를 보인다.

예: 예측변수가 1개일 때 p가지의 반복을 통해 가장 설명력이 좋은 예측 변수를 찾는다. 그리고 2개일 때로 넘어가 가장 좋은 설명력을 가진 예측변수를 포함하고, 나머지의 조합으로 가장 좋은 설명력을 가진 변수를 찾는다.(p-1가지)

따라서 단계적 전진선택법은 고차원인 경우 유용하다.

하지만 만들 수 있는 부분모형이 매우 적다.
(p>=n인 경우 최소제곱법에서는 유일한 해가 나오지 않는다.)

단계적 후진선택법

단계적 후진선택법은 전진선택법과 반대로 처음에 모두 포함한 상태로 시작한다.

$M_p$ 을 완전 모형을나타낸다.

$k=p,..,1$ 일 때
(a) $M_k$ 에 예측변수를 하나를 제거한 모형을 모두 살펴본다.
(b) 가장 좋은 모형을 선택한다.(최소 RSS, 최고 $R^2$ )

검증세트에서 앞의 알고리즘과 같은 방식으로 가장 좋은 모형을 선택한다.

두 방법 모두 적은 모형을 탐색할 수 있는 장점이 있지만 예측 변수가 너무 커 관측 수와 비슷할 때 사용하기 힘들며, 모든 경우의 수를 예측하는 것이 아니기 때문에 '가장 좋은' 모형이라고 할 수 없다.

앞선 전진선택방법은 예측변수가 관측 수보다 크더라도 적용이 가능하지만 후진선택방법은 관측 수가 더 많아야 적용 가능하다.

하이브리드 접근법
앞에서 언급한 세 가지 방법을 통해 제공하는 모형은 비슷하지만 완전히 동일한 것은 아니다.

다른 대안으로는 전진,후진선택법의 방식을 혼합한 하이브리드 접근법이 있다.

변수를 순차적으로 추가한다.(전진선택법)
변수를 추가한 후 모형 적합을 개선하지 않는 변수는 제거가능하다(후진선택법)

이는 최량부분집합선택을 모방하면서도, 단계적 전진선택과 단계적 후진선택의 계산 효율성을 유지한다.

6.1.3. 최적 모형 선택하기

여러 가지 선택법의 결과로 모형의 집합이 생성된다.

여기서 어떠한 모형이 가장 좋은지 결정하면 된다.
(알고리즘 3번째 단계에 해당)

훈련 오차만으로는 테스트 오차를 확인하기 어렵기 때문에 두 가지 방법으로 테스트 오차를 추정한다.

간접적으로 추정하는 방법으로, 과적합으로 인한 편향을 고려해 훈련 오차를 조정한다.
직접적으로 추정하는 방법으로 검증 세트 접근법과 교차검증 접근이 있다.

$C_p, AIC, BIC, 수정된 R^2$

훈련 세트 MSE는 테스트 세트를 MSE를 과소추정한다. (MSE = RSS/n)
RSS와 $R^2$ 으로는 성능이 좋은 모델을 선택할 수 있긴 하지만, 테스트 오차를 확인하기에 좋은 방법은 아니다.

따라서 모형 크기를 고려해 훈련 오차를 조정(adjust)하는 방법이 있다.

그 중 네 가지 접근법 $C_p, AIC(Akaike informaiton criterion), BIC(Bayesian informaiton criterion)$
수정된 $R^2$ 에 대해 알아볼 것이다.

[그림 6.2] 세 가지 방법으로 나타낸 데이터세트에서 크기별로 가장 좋은 모형

먼저 Credit 데이터세트를 최량부분집합선택을 이용해 모형을 산출했다.

예측변수 $d$ 개를 포함하는 최소제곱모형을 적합했을 때 테스트 MSE의 추정값 $C_p$ 를 다음과 같이 나타낼 수 있다.

$\hat{\sigma^2}$ 은 최소제곱법으로 나타낸 식에서 오차 $\epsilon$ 의 분산 추정값이다.
일반적으로 $\hat{\sigma^2}$ 을 추정할 때는 모든 변수를 포함한 모형에서 진행한다.

$C_p$ 에서는 RSS가 테스트 데이터에서 과소추정하는 문제점을 보완하기 때문에 일부 식(penalty)을 추가한 것이다.
$C_p$ 에서는 테스트 오차가 낮은 모형에서 값이 작은 경향이 있으므로 모형 집합에서 가장 좋은 모형을 선택할 때 최저값을 선택한다.

AIC 기준은 최대가능도로 적합된 모형의 가장 큰 부류에 대해 정의된다. 가우스 오차를 포함하는 모형의 경우 최대가능도와 최소제곱법이 동일해 다음과 같은 식이 주어진다.

앞의 $C_p$ 와 마찬가지로 테스트 오차가 작은 모형에서 값이 작은 경향이 있다.
위의 차이점을 본다면 log형태가 되었는 것인데 n(관측 수)가 7보다 클 때 $C_p$ 의 식(2)보다 크기 때문에 BIC통계량은 일반적으로 변수가 많은 모형에 무거운 패널티를 부여하고, 결국 $C_p$ 보다 더 작은 모형을 선택한다.

수정된 $R^2$ 통계량은 변수의 개수가 다른 모형을 선택할 때 사용되는 접근법이다.

수정된 $R^2$ 은 커질수록 좋은 모형을 시사하는데,
여기서는 $RSS/(n-d-1)$ 을 최소화해야한다.
(RSS는 변수가 증가함에 따라 감소하는 경향이 있지만 분모에 d가 있어 증가, 또는 감소할 수 있다.)

수정된 $R^2$ 의 아이디어는 올바른 변수가 모두 모형에 포함되면 '소음변수'가 추가되더라도 RSS가 매우 적게 감소한다는 것이다.

이론상으로는 수정된 $R^2$ 이 가장 큰 값은 소음변수가 하나도 없는 올바른 변수만 있는 것이다.(최소의 d를 만들기 위해)
$R^2$ 통계량과는 달리 수정된 $R^2$ 에는 불필요한 변수가 추가되면 패널티를 받게 된다.

네 가지 방법은 점근적 논리(표본 크기가 매우 큰 경우)에 근거한 엄격한 이론적인 정당성이 있다.

수정된 $R^2$ 은 인기가 있고 직관적이지만 다른 AIC, BIC, $C_p$ 보다 이론적 근거가 있는 것은 아니다.

위 측도들은 모두 사용과 계산이 쉽고,
AIC, BIC의 경우 최소제곱법을 사용한 선형모형 적합 이외에도 더 많은 유형의 모형에 대해서 정의할 수 있다.

검증과 교차검증
위 방법은 5장에서 논의한 방법으로 테스트 오차를 직접적으로 직접 추정할 수 있다.

검증 세트 오차나 교차검증 오차를 계산해, 가장 작은 모형을 선택하면 된다.

이 방법은 넓은 범위의 모형선택 작업에 사용되며, 모형의 자유도(예측 변수의 개수)를 지정하기 어렵거나, 오차분산을 추정하기 어려울 때도 사용할 수 있다.

교차검증은 특성상 계산량이 많아 추천되지 않았지만, 현대 컴퓨터로는 크게 문제가 되지 않기 때문에 매력적인 접근이 된다.

[그림 6.3] Credit 데이터 세트에서 예측변수 d를 포함할 때 좋은 모형의 측도를 계산한 결과.

왼쪽 그림은 BIC를 이용해 나타낸 것이고, 가운데는 검증세트(훈련: 75, 검증 25), 오른쪽은 k=10겹 교차검증을 통한 오차를 나타낸 그래프이다.

세 그래프 모두 개형이 비슷하다.(가운데, 오른쪽은 6-변수 모형 선택이지만, 4~6-변수 모형은 거의 등가)

검증세트와 교차검증은 어떤 데이터를 분할하는가에 따라서 오차의 추정이 바뀔 수 있는데, 이 상황에서는 1-표준오차 규칙(one-standard-error rule)을 이용해 모형을 선택할 수 있다.

먼저 추정된 MSE의 표준오차를 모형의 크기마다 계산한 다음, 곡선 중 가장 낮은 점이 있다면, 그 점에서 1-표준오차 이내인 가장 작은 모형(단순한 모형)을 선택하는 것이다.

6.2. 축소 방법

앞 절에서 소개한 방식은 예측변수 중에서 일부 부분집합을 포함하는 가장 좋은 선형모형을 선택해 최소제곱법으로 적합하는 방법이다.

대안으로는 예측변수를 모두 포함하면서 계수 추정값을 제약 및 규제하거나, 계수추정값을 0 방향으로 축소하는 기법을 사용할 수 있다.

계수 추정값을 0으로 축소하는 방법 중 두 가지는 다음과 같다.

능형회귀(ridge regression)
라쏘(lasso)

6.2.1. 능형회귀

최소제곱 적합 절차는 다음을 최소화하는 값을 이용한다.

능형회귀는 최소제곱법과 유사하지만 계수를 추정할 때, 다른 수량을 최소화한다는 점에서 다르다.

$\lambda \geq 0$ 는 우리가 별도로 결정할 조율모수(running parameter)이다.

식에서 첫 번째 항은 최소제곱법과 마찬가지로 RSS를 작게 하는 계수 추정값을 찾는다.
두 번째 항은 축소 벌점(shrinkage penalty)로, $\beta_1, ..., \beta_p$ 가 0에 가까울 때 작아지므로 0 방향으로 축소하는 효과를 가지고 있다.

$\lambda= 0$ 이라면 최소제곱 추정값을 생성하지만, $\lambda \rightarrow \infin$ 일수록 축소 벌점의 영향력이 커지게 되고, 능형 계수 추정값은 0에 가까워진다.

최소제곱법은 하나의 계수 추정값 세트만 생성하지만, 능형 회귀는 $\lambda$ 의 값에 따라 달라지기 때문에 적절한 값을 선택하는 것이 중요하다.

여기서 주목할 것은 $\beta_0$ 에는 축소 벌점이 적용되지 않는다. 왜냐하면 능형회귀의 축소벌점의 목적은 예측변수와 반응변수의 연관성을 축소하는 것을 가지고 있기 때문에 절편은 놔둔다.

Credit 데이터 적용 사례

[그림 6.4] Credit 데이터 세트에서 표준화된 능형회귀계수를 다음과 같이 나타낸 결과.

다음 그래프는 능형회귀계수 추정값을 보여준다.

왼쪽 그래프에서 각각의 곡선은 10개의 변수 중 하나의 능형회귀계수의 추정값에 대응된다.

$\lambda$ 가 0에 가깝다면 해당 능형회귀 계수의 추정값은 최소제곱 추정값과 같아진다.

$\lambda$ 가 증가함에 따라 추정값들은 0의 방향으로 축소되는데, 매우 클 때는 0이 되고, 이를 예측변수를 포함하지 않는 영모형이라고한다.

오른쪽 그래프는 동일한 능형 계수 추정값을 보여주지만, $x$ 축이 다른 값이다.
$\lambda$ 대신 기본적인 크기를 측정하는 벡터의 노름(norm)을 나타낸 것으로, 0에서 떨어진 거리의 측도이다.

(다시 공부하기)

따라서 이 그래프는 능형회귀계수 추정값이 0의 방향으로 얼마나 축소했는지 나타내는 값으로 생각할 수 있다.

표준 최소제곱 계수 추정값에는 척도 등변성(scale equivariance)의 성질이 있어 $X_j \times \hat{\beta_j}$ 에서 $X_j$ 이 $c$ 배 곱해졌을 때,
최소제곱 계수 추정값은 $1/c$ 배만큼 척도화(scaling)하게 되기 때문에 어떤 예측변수를 어떻게 척도화 하던지 간에 둘의 곱은 동일하게 유지된다.

반면에 능형회귀계수 추정값은 예측변수에 상수만큼 곱하게 되면 값이 상당히 변할 수 있다.

따라서 이는 $\lambda$ 뿐만 아니라 $j$ 번째 예측변수의 척도화(scaling) 또한 고려해야하며, 다른 예측변수의 척도화에도 의존할 수 있기 때문에 예측변수를 표준화하고 나서 능형회귀를 적용하는 것이 좋은 방법이다.

능형 회귀는 최소제곱 회귀와는 달리 축소 벌점이라는 제약을 주기 때문에 축소를 단위에 맞추어 진행해야 한다.
예) 나이와 소득이 예측변수로 있을 때, 소득이 변화가 나이의 변화보다 훨씬 크기 때문에 영향력을 가질 수 있다.
이럴 때 척도화를 통해 평균을 0, 표준편차를 1로 설정한다면 같은 스케일이 되어 영향력이 비슷해질 수 있기 때문에 진행하는 것이다.

왜 능형회귀가 최소제곱 회귀보다 나아지는가?

이는 '편향-분산' 트레이드오프'에서 장점이 나타난다.

[그림 6.5] 시뮬레이션 데이터에서 능형회귀 예측에 대한 편향제곱(검정), 분산(초록), 테스트평균제곱오차(자주)를 나타낸 결과.

$\lambda$ 가 증가하면 유연성이 감소하게 되고, 이는 분산이 작아지고 편향이 증가하는 결과를 갖는다.

$p =45, n = 50$ 인 시뮬레이션 데이터 세트에서 왼쪽그림의 초록색 실선은 분산으로 $\lambda$ 가 커질수록 작아지는 현상을 띈다.
우리는 테스트 평균제곱오차(MSE)를 통해 분산과 편향의 관계를 확인할 수 있다.
$\lambda = 10$ 지점까지 분산이 급격하게 감소하고, 편향은 거의 증가하지 않는다. 따라서 MSE의 결과는 상당히 감소한다.
최소 MSE = $\lambda = 30$ 지점으로 이보다 증가할 경우 편향의 증가 크기가 커져 MSE는 증가하게 된다.

오른쪽 그림은 능형회귀 추정값의 $l_2$ 노름을 최소제곱 추정값의 $l_2$ 으로 나눈 값을 $x$ 축으로 나타낸 결과이다.
왼쪽에서 오른쪽으로 갈수록 (능형회귀 최소제곱 값이 커짐, 제약이 적음)적합이 더 유연해지고, 편향이 감소하며, 분산이 증가한다.

반응변수와 예측변수가 선형일 때는 최소제곱추정값은 편향이 낮지만 분산은 높다.
분산이 높다는 것은 관측값의 변화에 영향이 크다는 의미이므로, [그림6.5]처럼 예측변수와 관측 수가 비슷할 경우에도 마찬가지로 추정값의 변동이 커진다.

또한 $p>n$ 의 경우에는 최소제곱법은 유일한 해를 얻을 수 없지만 능형회귀는 편향의 작은 증가와 분산의 큰 감소를 교환함으로써 잘 수행이 가능하다.

따라서 능형회귀는 최소제곱 추정값의 분산이 높은 상황에서 잘 작동한다고 말할 수 있다.

또한 이전에 논의했던 최량부분집합선택에서 많은 모형을 만들어서 비교하는 것과 달리, 하나의 모형에서 계수를 축소하는 과정이기 때문에 계산상의 이점도 가지고 있다.
실제로 동시에 모든 $\lambda$ 값에 대해 식을 푸는데 필요한 계산 속도는 최소제곱을 통해 모형을 적합하는 계산과 거의 동일함을 보인다.

6.2.2. 라쏘

능형회귀의 명백한 단점은 모든 예측변수를 포함해야 한다는 것이다.( $\lambda \rightarrow \infin$ 일 경우 제외)
따라서 해석에 어려움을 줄 수 있다.

라쏘(lasso)는 능형회귀의 단점을 극복하기 위한 대안이다.

앞의 능형회귀와 거의 유사하지만 하나의 차이가 있다. 벌점이 $|\beta_j|$ 로 바뀌었다는 것이다.
통계학 용어에서는 능형은 $l_2$ 노름, 라쏘는 $l_1$ 노름 벌점을 사용한다고 한다.

라쏘는 능형회귀와 마찬가지로 계수 추정값을 0의 방향으로 축소하지만 $\lambda$ 가 충분히 클 때 일부 계수 추정값을 정확히 0으로 만드는 효과가 있다.
최량부분선택과 같은 방법으로 변수 선택을 하는 것은 아니지만 변수 선택의 효과를 가지고 있다고 할 수 있다.

[그림 6.6] 표준화 라쏘 계수에 대한 결과.

$\lambda = 0$ 일 때는 최소제곱 적합을 제공한다. 하지만 충분히 커지게 되면 모든 예측 변수가 결국 추정값이 0인 영모형을 제공한다.

이는 능형회귀와 비슷한 효과를 내지만 그 사이에는 상당한 차이가 있다.
바로 계수 추정값이 0이 되는 지점이 다르다는 것이다.(능형은 모든 변수가 포함되어야 함( $\lambda \rightarrow \infin$ 일 경우 제외))

이를 통해 어떤 변수를 0으로 할지 계산할 수 있다.

능형회귀와 라쏘의 또 다른 공식

라쏘와 능형회귀계수 추정값은 각각 다음 문제의 해가 된다.

이 식과 이전 식에서 모든 $\lambda$ 값에 대해 동일한 라쏘 계수 추정값이 나오게 하는 $s$ 가 있다.(능형도 마찬가지)
예를 들어 $p=2$ 일 때 $|\beta_1| + |\beta_2| \leq s$ 로 정의된 다이아몬드 영역 내부에서 위치한 모든 점에서 $RSS$ 가 가장 작다는 것이다.

위 식을 어떠한 관점에서 생각할 수 있을까?

라쏘를 수행하면서 '예산' $s$ 의 제약 조건 하에 RSS를 가장 작게하는 계수 추정값 집합을 찾으려고 한다.

$s$ 가 매우 크다면 문제가 되지 않지만(이럴 경우에는 그냥 최소제곱 해를 산출해도 된다),
작을 경우에는 이를 만족하는 계수 추정값 집합을 찾아야 한다.(능형도 동일)

여기서 $I(\beta_j \neq 0)$ 는 지시 변수(indicator variable)으로 0이 아니면 1, 0이면 0이 된다.
위 식은 0이 아닌 계수가 $s$ 개 이하라는 제약 하에서 RSS를 가능한 작게 만드는 계수 추정값의 집합을 찾는 것에 해당한다.
$p$ 가 클 경우 $s$ 개의 예측변수를 포함해 모형을 모두 고려해야 하므로 현실적으로 불가능하다. 따라서 능형회귀와 라쏘를 통해 계산적으로 실행 가능한 대안으로 해석할 수 있다.

라쏘는 $s$ 가 충분히 작을 때 특징선택을 수행할 수 있고, 능형은 못한다는 관점에서 라쏘가 최량부분집합선택에 밀접하게 연관되어 있음을 알 수 있다.
(계수를 0으로 만들 수 있냐 없냐 차이)

라쏘의 변수선택 성질

어떻게 라쏘는 계수 추정값을 정확히 0으로 할 수 있을까?

이전 식(6.8, 6.9)의 공식을 통해 문제를 밝힐 수 있다.

[그림 6.7] 라쏘(왼쪽), 능형회귀(오른쪽)에 대한 오차와 제약 함수의 등고선. 제약 영역(파란색), RSS 등고선(빨간색 타원)

최소 제곱의 해는 $\hat\beta$ 로 표시했고, 파란색 영역은 라쏘와 능형회귀의 제약을 나타낸다.
$s$ 가 충분히 크다면 제약 영역은 $\hat\beta$ 를 포함할 것이고, 최소제곱 추정값과 같게 될 것이다.
하지만 여기에서는 제약이 충분히 크지 않으므로 최소제곱 추정값과 같지 않다

$\hat\beta$ 를 중심으로 타원의 의미는 타원 위의 점은 모두 RSS 값이 같다는 것이다.

여기서 능형은 제약이 원 형태이므로 계수 추정값은 0이 될 수 없고,

라쏘는 다이아몬드 형태이므로 정확히 0의 값이 나올 수 있다.

여기에서는 $p=2$ 인 경우이고, $p=3$ 일경우, 다면체, 초구가 된다.
이러한 경우에서도 라쏘는 날카로운 모서리를 가진 특징을 가지기 때문에 특징선택의 효과를 갖는다.

라쏘와 능형회귀의 비교

라쏘와 능형회귀의 예측 정확도를 비교해보자.

[그림 6.8] 왼쪽: 라쏘의 편향제곱(검정), 분산(초록), 테스트MSE(보라색) 그래프 오른쪽: 라쏘(실선), 능형회귀(점선)의 편향제곱, 분산, 테스트MSE의 비교

왼쪽은 라쏘의 편향제곱, 분산 ,테스트MSE 결과이다.
능형회귀와 같이 $\lambda$ 가 증가할수록 분산이 감소하고, 편향이 증가한다.

오른쪽 그림은 능형회귀(점선)와 라쏘(실선)의 차이를 보여준다.

$x$ 축은 훈련 데이터의 $R^2$ 으로 모형의 색인을 만들기 위한 방법으로 규제 유형이 서로 다른 모형을 비교할 때 사용할 수 있다.

먼저 편향은 라쏘와 능형회귀 모두 거의 동일한 편향을 나타내고 있다.
하지만 능형회귀의 분산은 라쏘보다 작고, 최소MSE는 라쏘보다 약간 작다.
따라서 여기에서는 라쏘가 예측오차 측면에서는 능형회귀보다 좋다고 할 수 없다.
하지만 이는 45개의 예측변수를 모두 포함했을 때 결과이므로 놀라운 일은 아니다.

다음은 예측변수가 2개인 함수를 나타낸 결과이다.

[그림 6.9] 예측변수가 2개일 때 결과.

오른쪽 그림을 보면 능형회귀보다 편향, 분산, MSE측면에서 능형회귀를 능가하는 경향을 볼 수 있다.

따라서 라쏘는 상대적으로 적은 개수의 예측변수가 큰 계수를 포함하고, 나머지 예측변수가 매우 낮거나 0일 때 성능이 우수하다고 말할 수 있다.
능형회귀는 예측변수가 많고, 계수들의 영향력이 비슷할 때 성능이 좋게 나타날 수 있다.

하지만 실제 데이터에서는 반응과 관련된 예측변수의 수를 선험적으로 알 수 없다. 따라서 교차검증 같은 기법을 사용해 특정 데이터에서 특정 접근법을 선택할 지 결정할 수 있다.

다음은 두 모형을 적합하는 효율적인 알고리즘이 있는데, 이는 전체 계수 경로를 단일 최소제곱 적합과 같은 양의 작업으로 계산 가능하다.

능형회귀와 라쏘의 단순한 특수 사례

$n=p$ 이고, $X$ 가 대각행렬인 경우를 이용해 알아보자.

절편 없이 회귀를 수행한다고 가정하였을 때,
일반적인 최소제곱 문제는 $\beta_1, ..., \beta_p$ 을 최소화하는 문제로 단순화 된다.

또한 최소제곱의 해는 다음과 같다.

여기서 능형회귀는 다음과 같은 문제와 같다.
라쏘는 다음과 같다.

여기서 능형회귀 추정값은 다음과 같은 형태이다.

라쏘는 다음과 같은 형태이다.

다음 그림은 이 상황을 제시한 것이다.

[그림 6.10] $n=p$ 이고, $X$ 가 대각행렬인 경우 능형회귀와 라쏘 계수 추정값.

왼쪽 그림에서는 능형회귀에서는 최소제곱 계수 추정량에서 동일한 비율로 축소된 것을 볼 수 있다.
오른쪽 그림은 일부 구간은 절대값이 일정 구간 이상인 경우에서는 $\lambda/2$ 만큼 차이가 나고,
절대값 이내 구간에서는 완전히 0으로 축소된다는 사실에서 왜 라쏘가 특징선택을 수행하는지 설명할 수 있다.

이러한 단순한 설정에서 라쏘에 의해 이루어진 완전히 0으로 되는 축소 유형은 소프트-임곗값 처리(soft-thersholding)이라고 알려져 있다.

능형회귀와 라쏘의 베이즈 해석

두 모형을 베이즈 관점에서 살펴보면 다음과 같다.

베이즈 관점에서는 계수( $\beta = (\beta_0, \beta_1, ... \beta_p)^T)$ 가 사전분포 $p(\beta)$ 를 따를 때,
데이터의 가능도는 $f(Y|X,\beta)$ 로 표현하고, 사전분포와 가능도를 곱할 때 사후분포를 얻을 수 있어 다음과 같은 형태이다.

여기서 비례 관계는 베이즈 정리에서 나온다. 또한 $X$ 가 고정되었다는 가정에서 나온다.

일반 선형모형을 가정해보자.

오차는 독립이고, 정규분포에서 추출되었다고 생각해보자.
또한 밀도함수 g에 대해 능형회귀와 라쏘는 g의 두 가지 특수한 경우로부터 나온다.

g의 평균이 0이고, 표준편차가 $\lambda$ 인 함수인 가우스 분포라면 $\beta$ 의 가장 가능성이 높은 값(사후 최빈값, posterior mode)가 능형 회귀의 해로 주어진다.(사후 평균)
g의 평균이 0이고, 척도모수가 $\lambda$ 인 함수인 이중지수분포(double-exponential distribution, 라플라스 분포(Laplace distribution))이라면
$\beta$ 의 사후 최빈값이 라쏘의 해가 된다.(사후 평균이 아님)

[그림 6.11] 능형회귀(왼쪽)와 라쏘(오른쪽)의 사후 최빈값

다음은 가우스 사전분포와 이중지수 사전분포이다.

베이즈 관점에서 보았을 때 능형회귀와 라쏘는 정규 오차를 가지는 선형모형과 함께 $\beta$ 에 대한 단순한 사전분포를 가정함으로써 직접 도출된다.

라쏘의 사전분포는 0에서 급격한 최대가 되고, 능형은 0에서는 무딘 모습을 보인다.
이를 통해 라쏘는 선험적으로 많은 계수가 0이 될 것이고, 능형회귀는 0 주변에 랜덤하게 분포할 것이라고 가정한다.

6.2.3. 조율모수 선택하기

부분집합선택법에서 선택한 모형 중에 좋은 모형을 결정하는 방법을 필요로 하는 것처럼,
능형회귀와 라쏘 또한 제약 s를 선택하는 방법이 필요하다.

이는 교차 검증을 통해 간단한 방법을 제공받을 수 있다.

먼저 $\lambda$ 값의 그리드를 선택하고 각각의 $\lambda$ 값에 대해 오차검증 오차를 계산한다.
그런 다음 교차 검증 오차가 제일 작은 조율모수 값을 선택한다.
마지막으로 사용 가능한 모든 관측과 선택된 조율모수 값을 통해 모형을 다시 적합한다.

[그림 6.12] 왼쪽: $\lambda$ 값에 따른 능형회귀 적합에 대한 결과 발생한 교차검증 오차. 오른쪽: $\lambda$ 의 함수로서 계수 추정값. 수직 파선은 교차검증으로 선택된 $\lambda$ 값.

다음은 Credit 데이터 세트에서 능형회귀 적합에 LOOCV를 수행한 결과에 대한 오차를 보여준다.
수직 파선이 선택된 $\lambda$ 값인데, 최적의 값이 작은 양의 축소를 적합한다는 것을 나타내고 이는 최소제곱 해에 비해 상대적으로 적다.
또한 차이가 뚜렷하지 않아 유사한 오차를 내는 범위가 넓다.
이 경우에는 최소제곱 해를 사용하는 것이 유용할 수 있다.

[그림 6.13] 왼쪽: [그림6.9]의 데이터 세트에적용한 라쏘에 대한 10-겹 교차검증 MSE. 오른쪽: 라쏘 계수 추정값

다음은 10-겹 교차검증의 예시를 보여준다. 그림[6.9]의 희소 시뮬레이션 데이터(예측변수가 2개)에 대한 라쏘 적합을 적용했으며,
왼쪽 그림은 검증오차, 오른쪽 그림은 계수 추정값의 결과이다.

오른쪽에서 회색 선은 2개의 의미있는 예측변수 이외의 변수들이다. 의미 있는 변수를 신호(signal)변수, 의미 없는 변수를 소음(noise)변수 라고 한다.
2개의 신호 예측변수는 큰 계수 추정값을 부여시키며, 최소 교차검증 오차에 대응하는 집합에서도 신호변수만 0이 아니다.

따라서 교차검증과 라쏘는 n과 p가 비슷한 상황에서도 소음변수 선정을 통한 축소과정으로 신호변수를 식별할 수 있다.
또한 오른쪽 맨 오른쪽에 표시된 최소제곱 해는 두 신호변수 중 하나에만 계수 추정값을 크게 할당한다.

cmkkws

이전 포스트

5장 - 재표집법(1)

다음 포스트

6장 - 선형모형선택과 규제(1)

6.1. 부분집합선택

6.1.1. 최량부분집합선택

[그림 6.1] credit데이터 세트에서 10개의 예측변수로 구성된 모든 부분집합을 포함하는 각 모형의 지표를 표시

6.1.2. 단계적 선택

6.1.3. 최적 모형 선택하기

[그림 6.2] 세 가지 방법으로 나타낸 데이터세트에서 크기별로 가장 좋은 모형

[그림 6.3] Credit 데이터 세트에서 예측변수 d를 포함할 때 좋은 모형의 측도를 계산한 결과.

6.2. 축소 방법

6.2.1. 능형회귀

[그림 6.4] Credit 데이터 세트에서 표준화된 능형회귀계수를 다음과 같이 나타낸 결과.

[그림 6.5] 시뮬레이션 데이터에서 능형회귀 예측에 대한 편향제곱(검정), 분산(초록), 테스트평균제곱오차(자주)를 나타낸 결과.

6.2.2. 라쏘

[그림 6.6] 표준화 라쏘 계수에 대한 결과.

[그림 6.7] 라쏘(왼쪽), 능형회귀(오른쪽)에 대한 오차와 제약 함수의 등고선. 제약 영역(파란색), RSS 등고선(빨간색 타원)

[그림 6.8] 왼쪽: 라쏘의 편향제곱(검정), 분산(초록), 테스트MSE(보라색) 그래프 오른쪽: 라쏘(실선), 능형회귀(점선)의 편향제곱, 분산, 테스트MSE의 비교

[그림 6.9] 예측변수가 2개일 때 결과.

[그림 6.10] $n=p$ 이고, $X$ 가 대각행렬인 경우 능형회귀와 라쏘 계수 추정값.

[그림 6.11] 능형회귀(왼쪽)와 라쏘(오른쪽)의 사후 최빈값

6.2.3. 조율모수 선택하기

[그림 6.12] 왼쪽: $\lambda$ 값에 따른 능형회귀 적합에 대한 결과 발생한 교차검증 오차. 오른쪽: $\lambda$ 의 함수로서 계수 추정값. 수직 파선은 교차검증으로 선택된 $\lambda$ 값.

[그림 6.13] 왼쪽: [그림6.9]의 데이터 세트에적용한 라쏘에 대한 10-겹 교차검증 MSE. 오른쪽: 라쏘 계수 추정값

5장 - 재표집법(1)

6장 - 선형모형선택과 규제(2)

0개의 댓글

6장 - 선형모형선택과 규제(1)

6.1. 부분집합선택

6.1.1. 최량부분집합선택

[그림 6.1] credit데이터 세트에서 10개의 예측변수로 구성된 모든 부분집합을 포함하는 각 모형의 지표를 표시

6.1.2. 단계적 선택

6.1.3. 최적 모형 선택하기

[그림 6.2] 세 가지 방법으로 나타낸 데이터세트에서 크기별로 가장 좋은 모형

[그림 6.3] Credit 데이터 세트에서 예측변수 d를 포함할 때 좋은 모형의 측도를 계산한 결과.

6.2. 축소 방법

6.2.1. 능형회귀

[그림 6.4] Credit 데이터 세트에서 표준화된 능형회귀계수를 다음과 같이 나타낸 결과.

[그림 6.5] 시뮬레이션 데이터에서 능형회귀 예측에 대한 편향제곱(검정), 분산(초록), 테스트평균제곱오차(자주)를 나타낸 결과.

6.2.2. 라쏘

[그림 6.6] 표준화 라쏘 계수에 대한 결과.

[그림 6.7] 라쏘(왼쪽), 능형회귀(오른쪽)에 대한 오차와 제약 함수의 등고선. 제약 영역(파란색), RSS 등고선(빨간색 타원)

[그림 6.8] 왼쪽: 라쏘의 편향제곱(검정), 분산(초록), 테스트MSE(보라색) 그래프 오른쪽: 라쏘(실선), 능형회귀(점선)의 편향제곱, 분산, 테스트MSE의 비교

[그림 6.9] 예측변수가 2개일 때 결과.

[그림 6.10] n=pn=pn=p이고, XXX가 대각행렬인 경우 능형회귀와 라쏘 계수 추정값.

[그림 6.11] 능형회귀(왼쪽)와 라쏘(오른쪽)의 사후 최빈값

6.2.3. 조율모수 선택하기

[그림 6.12] 왼쪽: λ\lambdaλ 값에 따른 능형회귀 적합에 대한 결과 발생한 교차검증 오차. 오른쪽: λ\lambdaλ의 함수로서 계수 추정값. 수직 파선은 교차검증으로 선택된 λ\lambdaλ 값.

[그림 6.13] 왼쪽: [그림6.9]의 데이터 세트에적용한 라쏘에 대한 10-겹 교차검증 MSE. 오른쪽: 라쏘 계수 추정값

5장 - 재표집법(1)

6장 - 선형모형선택과 규제(2)

0개의 댓글

[그림 6.10] $n=p$ 이고, $X$ 가 대각행렬인 경우 능형회귀와 라쏘 계수 추정값.

[그림 6.12] 왼쪽: $\lambda$ 값에 따른 능형회귀 적합에 대한 결과 발생한 교차검증 오차. 오른쪽: $\lambda$ 의 함수로서 계수 추정값. 수직 파선은 교차검증으로 선택된 $\lambda$ 값.