ISLR 읽고 이해하기 Chap.2 - (1)

ThovYoon·2022년 7월 7일
1
post-thumbnail

Image Source

입력변수와 출력변수

입력변수와 출력변수는 각각 다른이름으로 불리기도 한다.

  • 입력변수는 종종 설명변수(Explanatory Variables), 예측변수(Predictors), 독립변수(Independent Variables), 특징(Features) 아니면 단지 변수(Varibales)라고 표현이 된다. XX라고도 표현한다.
  • 출력변수는 종종 반응변수, 응답변수(Response), 결과변수(Outcome Variable), 표적변수(Target Variable), 종속변수(Dependent Variable)로 표현된다. YY라고도 표현한다.

 양적인 변수 Y와 설명변수 X들(X1{X_1}, X2{X_2}, X3{X_3}, ... Xp{X_p})간의 상관관계가 있다고 가정하면 아래와 같이 표현할 수 있다.

Y=f(X)+ϵ{Y} = f({X}) + \epsilon

 f(X)f({X})는 설명변수 X{X}들에 대한 고정된 함수이며, ϵ\epsilon은 오차항이다. 이때 오차항들은 X{X}에 대해 독립적이고, 평균은 0이다. 추후 오차항의 기본가정들에 대해 기술할 예정이다.

 통계학습은 본질적으로 ff를 추정하는 것에 목표를 두고있다. 일반적으로 입력변수를 바탕으로 출력변수를 나타내는 ff는 알려져 있지 않은 경우가 많으며, 이때는 대게 관찰된 점들(값들)을 기반으로 해서 ff를 추정하게된다. ff는 보통 2개이상의 입력변수와 관련되어 있는 경우가 많다.


 바로위에 언급했듯 ff를 추정에 목표를 두는 이유는 결국 예측추론을 하기위함이다.

예측 ( Prediction )

 X{X}는 우리가 쉽게 데이터를 얻을 수 있지만, 그에반해 Y{Y}는 쉽게 얻을 수 없다는 단점이 있다. 이때 오차항은 평균이 0이기 때문에 제외됐다.

Y^=f^(X)\hat{Y} = \hat f(X)

 Y^,f^\hat{Y}, \hat f는 각각 Yf{Y}와 f의 추정치인데 보통 f^\hat f는 blackbox로 간주되기도 한다. 그 이유는 Y{Y}에 대해서 정확하게 예측한다면, f^\hat f의 형태는 중요하지 않기 때문이다.

 Y^\hat Y에 대한 정확성은 오차에 달려있는데, Reducible error와 Irreducible error 두가지로 구분할 수 있다.

  • Reducible Error는 축소가능한 오차를 의미하는데, 즉 f^\hat f이 실제로는 ff를 완벽하게 예측할 수 없기에 두 개의 사이에서는 오차가 발생하게 된다. 그러나 이 오차는 적절한 통계기법, 모델링을 통해서 개선이 가능하기에 축소가 가능한 오차라고 불린다.

  • 이와 반대로, Irreducible Error는 f(X)f(X)를 완벽하게 예측해서 Y^=f(X)\hat Y = f(X)가 되었다 하여도, 우리가 모르는 오차를 가질 수 있으며, 이때 오차는 위에서 언급했듯 XX와 독립적이기 때문에 XX로 예측할 수도 없다. 그렇기 때문에 축소 불가능 오차로 불린다.

그렇다면 축소가능 오차는 왜 0보다 클까?

 생각보다 이유는 간단했다. MSE(= Mean Squared Error)는 오차의 제곱합의 평균을 의미한다. 그렇다면 MSE는 다음과 같이 표현을 할 수 있다.

E(YY^)2=E[f(X)+ϵf^(X)]2=[f(X)f^(X)]2reducible+Var(ϵ)irreducibleE(Y - \hat Y)^2 = E[f(X) + \epsilon - \hat f(X)]^2 = \underbrace{[f(X) -\hat f(X)]^2}_{reducible} + \underbrace{Var(\epsilon)}_{irreducible}

Reducible로 표현되어 있는 부분은 ffYY를 예측하는데에 필요한 변수들이 담겨 있는 반면, ϵ\epsilon 에는 YY를 예측하는데 사용되지 않는 변수들이 포함되어있다고 언급했다. 그렇기에 Reducible 한 부분은 오차가 음수가 도출되더라도 결국은 제곱을 해주는 과정이 들어있기에 0보다 큰 값이 도출되게 된다. 결국 MSE는 추후에도 기술할 예정이지만, Regression 문제에서 대부분 가장 많이 사용되는 Metric이며, 가장 최소화 되는 MSE를 찾는 것을 목적으로 두고있기도 하다.


추론 ( Inference )

 앞서 얘기했던 예측만이 우리의 주된 목표는 아니다. XXYY 사이의 관계에 대한 이해하고자 하는데도 우리는 관심이 있다. 그렇기 때문에 추론문제에서는 f^\hat f는 블랙박스가 아니다.

  • 어떤 설명변수들이 반응변수들과 연관이 있는가? -> 변수 선별 분제 ( Variable Selection )
  • 각 설명변수들과 반응변수 사이의 상관관계는? -> 상관성 문제 ( Correlation )
  • YY와 각 설명변수들 간 상관관계에서는 선형 방정식으로 표현이 가능한가? -> 선형과 비선형 문제 ( Linear and Non-linear )

추론은 이와 같은 질문들에 대한 답을 찾아가는 과정들을 의미한다.


결국, 우리는 최종 목적이 무엇인지에 따라 ff를 추정하는 과정들에 다른 방법들이 적용되게 되는 것이다.


그렇다면! f를 어떻게 추정하게 되는가?

 ff를 추정하는 것, 여기서는 Parametric MethodNon-parametric Method로 구분을 하고 있다. 이 둘의 가장 큰 구분은 'ff의 형태에 대해서 명시를 하는가?'와 관련이 있다.

Parametric Method는 ff의 형태를 명시하는 방법인데, 2단계로 이루어져 있다.

  • 먼저, ff는 어떤 형태일지에 대해서 가정을 한다.
    f(X)=β0+β1X1+β2X2++βpXpf(X) = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p

이렇게 선형일 것으로 가정을 하면, 우리가 모를 수도 있는 pp차원의 문제에 대해 f(X)f(X)를 추정하는 것 대신, p+1p+1개의 파라미터 ( β0,β1,β2,,βp\beta_0, \beta_1, \beta_2, \ldots, \beta_p)를 추정하게 된다.

  • 모델을 생성했으면 YY의 값을 추정하기 위해 훈련 데이터로 모델에 fit(적합)을 시키게 된다. 결국 다음과 같이 파라미터 값을 찾고자 한다.
    Yβ0+β1X1+β2X2++βpXpY \thickapprox \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p

결국 Parametric Method는 ff를 추정하는 문제에서 파라미터 추정을 중점으로 두어 훨씬 쉽게 문제를 해결하려 한다. 다만 단점으로는 실제 우리가 알지 못하는 ff값과 추정한 값에는 많은 error가 존재한다는 것이다.


Non-parametric Method는 ff를 명시하지 않는다. 즉, ff의 형태는 고려하지 않는다. 그렇기 때문에 다음과 같은 부분들을 충족시킬 수 있다.

  • 데이터에 대해 가능한 가까워지려고 노력한다.
  • Parametric Method보다 더 많은 부분에서 적합을 시킬 수 있다.

다만 첫번째 항목에 대해서는 너무나도 훈련세트에 대해 가까워 지려하면 결국 overfit되는 문제를 초래하게 된다. 그렇기에 언제나 '적절한' 정도를 유지해야한다.

위와 같은 두가지에 대해서 ff를 정확하게 추정하기 위해서는 확실히 많은양의 ( 어쩌면 Parametric Method 보다도 더.... )데이터가 필요한건 사실이다.

profile
매일 성장할 나를 위하여

0개의 댓글