입력변수와 출력변수는 각각 다른이름으로 불리기도 한다.
설명변수(Explanatory Variables)
, 예측변수(Predictors)
, 독립변수(Independent Variables)
, 특징(Features)
아니면 단지 변수(Varibales)
라고 표현이 된다. 라고도 표현한다.반응변수
, 응답변수(Response)
, 결과변수(Outcome Variable)
, 표적변수(Target Variable)
, 종속변수(Dependent Variable)
로 표현된다. 라고도 표현한다.양적인 변수 Y와 설명변수 X들(, , , ... )간의 상관관계가 있다고 가정하면 아래와 같이 표현할 수 있다.
는 설명변수 들에 대한 고정된 함수이며, 은 오차항이다. 이때 오차항들은 에 대해 독립적이고, 평균은 0이다. 추후 오차항의 기본가정들에 대해 기술할 예정이다.
통계학습은 본질적으로 를 추정하는 것에 목표를 두고있다. 일반적으로 입력변수를 바탕으로 출력변수를 나타내는 는 알려져 있지 않은 경우가 많으며, 이때는 대게 관찰된 점들(값들)을 기반으로 해서 를 추정하게된다. 는 보통 2개이상의 입력변수와 관련되어 있는 경우가 많다.
바로위에 언급했듯 를 추정에 목표를 두는 이유는 결국 예측과 추론을 하기위함이다.
는 우리가 쉽게 데이터를 얻을 수 있지만, 그에반해 는 쉽게 얻을 수 없다는 단점이 있다. 이때 오차항은 평균이 0이기 때문에 제외됐다.
는 각각 의 추정치인데 보통 는 blackbox로 간주되기도 한다. 그 이유는 에 대해서 정확하게 예측한다면, 의 형태는 중요하지 않기 때문이다.
에 대한 정확성은 오차에 달려있는데, Reducible error와 Irreducible error 두가지로 구분할 수 있다.
생각보다 이유는 간단했다. MSE(= Mean Squared Error)는 오차의 제곱합의 평균을 의미한다. 그렇다면 MSE는 다음과 같이 표현을 할 수 있다.
Reducible로 표현되어 있는 부분은 가 를 예측하는데에 필요한 변수들이 담겨 있는 반면, 에는 를 예측하는데 사용되지 않는 변수들이 포함되어있다고 언급했다. 그렇기에 Reducible 한 부분은 오차가 음수가 도출되더라도 결국은 제곱을 해주는 과정이 들어있기에 0보다 큰 값이 도출되게 된다. 결국 MSE는 추후에도 기술할 예정이지만, Regression 문제에서 대부분 가장 많이 사용되는 Metric이며, 가장 최소화 되는 MSE를 찾는 것을 목적으로 두고있기도 하다.
앞서 얘기했던 예측만이 우리의 주된 목표는 아니다. 와 사이의 관계에 대한 이해하고자 하는데도 우리는 관심이 있다. 그렇기 때문에 추론문제에서는 는 블랙박스가 아니다.
추론은 이와 같은 질문들에 대한 답을 찾아가는 과정들을 의미한다.
결국, 우리는 최종 목적이 무엇인지에 따라 를 추정하는 과정들에 다른 방법들이 적용되게 되는 것이다.
를 추정하는 것, 여기서는 Parametric Method
와 Non-parametric Method
로 구분을 하고 있다. 이 둘의 가장 큰 구분은 '의 형태에 대해서 명시를 하는가?'와 관련이 있다.
Parametric Method는 의 형태를 명시하는 방법인데, 2단계로 이루어져 있다.
이렇게 선형일 것으로 가정을 하면, 우리가 모를 수도 있는 차원의 문제에 대해 를 추정하는 것 대신, 개의 파라미터 ( )를 추정하게 된다.
결국 Parametric Method는 를 추정하는 문제에서 파라미터 추정을 중점으로 두어 훨씬 쉽게 문제를 해결하려 한다. 다만 단점으로는 실제 우리가 알지 못하는 값과 추정한 값에는 많은 error가 존재한다는 것이다.
Non-parametric Method는 를 명시하지 않는다. 즉, 의 형태는 고려하지 않는다. 그렇기 때문에 다음과 같은 부분들을 충족시킬 수 있다.
다만 첫번째 항목에 대해서는 너무나도 훈련세트에 대해 가까워 지려하면 결국 overfit되는 문제를 초래하게 된다. 그렇기에 언제나 '적절한' 정도를 유지해야한다.
위와 같은 두가지에 대해서 를 정확하게 추정하기 위해서는 확실히 많은양의 ( 어쩌면 Parametric Method 보다도 더.... )데이터가 필요한건 사실이다.