ISLR 읽고 이해하기 Chap.2 - (1)

ThovYoon·2022년 7월 7일

ISLR Statistics 셀프학습 책 리뷰 통계학

통계와 머신러닝 공부하기

목록 보기

2/7

Image Source

입력변수와 출력변수

입력변수와 출력변수는 각각 다른이름으로 불리기도 한다.

입력변수는 종종 설명변수(Explanatory Variables), 예측변수(Predictors), 독립변수(Independent Variables), 특징(Features) 아니면 단지 변수(Varibales)라고 표현이 된다. $X$ 라고도 표현한다.
출력변수는 종종 반응변수, 응답변수(Response), 결과변수(Outcome Variable), 표적변수(Target Variable), 종속변수(Dependent Variable)로 표현된다. $Y$ 라고도 표현한다.

　양적인 변수 Y와 설명변수 X들( ${X_1}$ , ${X_2}$ , ${X_3}$ , ... ${X_p}$ )간의 상관관계가 있다고 가정하면 아래와 같이 표현할 수 있다.

{Y} = f({X}) + \epsilon

　 $f({X})$ 는 설명변수 ${X}$ 들에 대한 고정된 함수이며, $\epsilon$ 은 오차항이다. 이때 오차항들은 ${X}$ 에 대해 독립적이고, 평균은 0이다. 추후 오차항의 기본가정들에 대해 기술할 예정이다.

　통계학습은 본질적으로 $f$ 를 추정하는 것에 목표를 두고있다. 일반적으로 입력변수를 바탕으로 출력변수를 나타내는 $f$ 는 알려져 있지 않은 경우가 많으며, 이때는 대게 관찰된 점들(값들)을 기반으로 해서 $f$ 를 추정하게된다. $f$ 는 보통 2개이상의 입력변수와 관련되어 있는 경우가 많다.

　바로위에 언급했듯 $f$ 를 추정에 목표를 두는 이유는 결국 예측과 추론을 하기위함이다.

예측 ( Prediction )

　 ${X}$ 는 우리가 쉽게 데이터를 얻을 수 있지만, 그에반해 ${Y}$ 는 쉽게 얻을 수 없다는 단점이 있다. 이때 오차항은 평균이 0이기 때문에 제외됐다.

\hat{Y} = \hat f(X)

　 $\hat{Y}, \hat f$ 는 각각 ${Y}와 f$ 의 추정치인데 보통 $\hat f$ 는 blackbox로 간주되기도 한다. 그 이유는 ${Y}$ 에 대해서 정확하게 예측한다면, $\hat f$ 의 형태는 중요하지 않기 때문이다.

　 $\hat Y$ 에 대한 정확성은 오차에 달려있는데, Reducible error와 Irreducible error 두가지로 구분할 수 있다.

Reducible Error는 축소가능한 오차를 의미하는데, 즉 $\hat f$ 이 실제로는 $f$ 를 완벽하게 예측할 수 없기에 두 개의 사이에서는 오차가 발생하게 된다. 그러나 이 오차는 적절한 통계기법, 모델링을 통해서 개선이 가능하기에 축소가 가능한 오차라고 불린다.
이와 반대로, Irreducible Error는 $f(X)$ 를 완벽하게 예측해서 $\hat Y = f(X)$ 가 되었다 하여도, 우리가 모르는 오차를 가질 수 있으며, 이때 오차는 위에서 언급했듯 $X$ 와 독립적이기 때문에 $X$ 로 예측할 수도 없다. 그렇기 때문에 축소 불가능 오차로 불린다.

그렇다면 축소가능 오차는 왜 0보다 클까?

　생각보다 이유는 간단했다. MSE(= Mean Squared Error)는 오차의 제곱합의 평균을 의미한다. 그렇다면 MSE는 다음과 같이 표현을 할 수 있다.

E(Y - \hat Y)^2 = E[f(X) + \epsilon - \hat f(X)]^2 = \underbrace{[f(X) -\hat f(X)]^2}_{reducible} + \underbrace{Var(\epsilon)}_{irreducible}

Reducible로 표현되어 있는 부분은 $f$ 가 $Y$ 를 예측하는데에 필요한 변수들이 담겨 있는 반면, $\epsilon$ 에는 $Y$ 를 예측하는데 사용되지 않는 변수들이 포함되어있다고 언급했다. 그렇기에 Reducible 한 부분은 오차가 음수가 도출되더라도 결국은 제곱을 해주는 과정이 들어있기에 0보다 큰 값이 도출되게 된다. 결국 MSE는 추후에도 기술할 예정이지만, Regression 문제에서 대부분 가장 많이 사용되는 Metric이며, 가장 최소화 되는 MSE를 찾는 것을 목적으로 두고있기도 하다.

추론 ( Inference )

　앞서 얘기했던 예측만이 우리의 주된 목표는 아니다. $X$ 와 $Y$ 사이의 관계에 대한 이해하고자 하는데도 우리는 관심이 있다. 그렇기 때문에 추론문제에서는 $\hat f$ 는 블랙박스가 아니다.

어떤 설명변수들이 반응변수들과 연관이 있는가? -> 변수 선별 분제 ( Variable Selection )
각 설명변수들과 반응변수 사이의 상관관계는? -> 상관성 문제 ( Correlation )
$Y$ 와 각 설명변수들 간 상관관계에서는 선형 방정식으로 표현이 가능한가? -> 선형과 비선형 문제 ( Linear and Non-linear )

추론은 이와 같은 질문들에 대한 답을 찾아가는 과정들을 의미한다.

결국, 우리는 최종 목적이 무엇인지에 따라 $f$ 를 추정하는 과정들에 다른 방법들이 적용되게 되는 것이다.

그렇다면! f를 어떻게 추정하게 되는가?

　 $f$ 를 추정하는 것, 여기서는 Parametric Method 와 Non-parametric Method로 구분을 하고 있다. 이 둘의 가장 큰 구분은 ' $f$ 의 형태에 대해서 명시를 하는가?'와 관련이 있다.

Parametric Method는 $f$ 의 형태를 명시하는 방법인데, 2단계로 이루어져 있다.

먼저, $f$ 는 어떤 형태일지에 대해서 가정을 한다. $f(X) = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p$

이렇게 선형일 것으로 가정을 하면, 우리가 모를 수도 있는 $p$ 차원의 문제에 대해 $f(X)$ 를 추정하는 것 대신, $p+1$ 개의 파라미터 ( $\beta_0, \beta_1, \beta_2, \ldots, \beta_p$ )를 추정하게 된다.

모델을 생성했으면 $Y$ 의 값을 추정하기 위해 훈련 데이터로 모델에 fit(적합)을 시키게 된다. 결국 다음과 같이 파라미터 값을 찾고자 한다. $Y \thickapprox \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p$

결국 Parametric Method는 $f$ 를 추정하는 문제에서 파라미터 추정을 중점으로 두어 훨씬 쉽게 문제를 해결하려 한다. 다만 단점으로는 실제 우리가 알지 못하는 $f$ 값과 추정한 값에는 많은 error가 존재한다는 것이다.

Non-parametric Method는 $f$ 를 명시하지 않는다. 즉, $f$ 의 형태는 고려하지 않는다. 그렇기 때문에 다음과 같은 부분들을 충족시킬 수 있다.

데이터에 대해 가능한 가까워지려고 노력한다.
Parametric Method보다 더 많은 부분에서 적합을 시킬 수 있다.

다만 첫번째 항목에 대해서는 너무나도 훈련세트에 대해 가까워 지려하면 결국 overfit되는 문제를 초래하게 된다. 그렇기에 언제나 '적절한' 정도를 유지해야한다.

위와 같은 두가지에 대해서 $f$ 를 정확하게 추정하기 위해서는 확실히 많은양의 ( 어쩌면 Parametric Method 보다도 더.... )데이터가 필요한건 사실이다.

ThovYoon

매일 성장할 나를 위하여

이전 포스트

ISLR 읽고 이해하기 Chap.1

다음 포스트