[확률] 7.6 조건부기댓값과 예측 문제

JKH·어제
0

확률

목록 보기
11/13

✏️ 데이터 사이언스 스쿨에서 공부한 내용입니다.

확률변수 YY의 기댓값을 구할 때 주변 확률밀도함수 pY(y)p_Y(y)를 사용하여 가중치를 계산하지 않고 조건부 확률밀도함수 pYX(yx)p_{Y\vert X}(y|x)를 이용하여 가중치를 계산하면 조건부기댓값(conditional expectation) 혹은 조건부평균(conditional mean) 이 된다.

EY[YX]=y=y=ypYX(yx)dy(7.6.1)\text{E}_Y[Y \vert X] = \int_{y=-\infty}^{y=\infty} y \, p_{Y \vert X}(y|x) dy \tag{7.6.1}
E[YX]=yp(yx)dy(7.6.2)\text{E}[Y \vert X] = \int y \, p(y|x) dy \tag{7.6.2}

조건부기댓값에서 조건이 되는 확률변수 XX의 값 xx는 조건부기댓값을 사용하는 사용자가 지정해야 하는 독립변수이다. 따라서 조건부기댓값은 조건이 되는 확률변수의 값에 따라서 값이 달라지는 확률변수이다. 또한 E[YX]\text{E}[Y \vert X]는 조건이 되는 확률변수 XX의 값 xx를 입력으로 가지는 함수다. f(x)f(x)는 조건이 되는 확률변수 XX의 값 xx를 입력받아서 결과가 되는 확률변수 YY의 기댓값을 출력하는 함수다.

E[YX=x]=f(x)(7.6.3)\text{E}[Y \vert X=x] = f(x) \tag{7.6.3}
E[Yx]=f(x)(7.6.4)\text{E}[Y \vert x] = f(x) \tag{7.6.4}

예측 문제

두 확률변수가 X,YX, Y에서 XX의 값을 알고 있을 때 YY의 값을 알아내는 것을 예측(prediction) 문제라고 한다. YY가 연속확률변수면 회귀분석(regression analysis), YY가 이산확률변수면 분류(classification)라고도 한다. XX의 값 xx을 알면 조건부확률분포 P(yx)P(y|x)의 분포를 알 수 있지만 가장 대표성이 있는 하나의 값이 되어야하므로 일반적으로 조건부확률분포의 기댓값인 조건부기댓값을 예측문제의 답으로 하는 경우가 많다.

경우에 따라서는 예측문제의 답으로 중앙값이나 최빈값 등을 계산할 수도 있다. 예측문제의 답은 y^\hat{y}기호로 표기하기도 한다. 조건부기댓값은 xx값의 함수이므로 이 함수를 구할 수 있으면 모든 xx값에 대한 예측결과를 구한 것과 같다.

x예측y^=E[yx]=f(x)(7.6.5)x \xrightarrow {\text{예측}} \hat{y} = E[y|x] = f(x) \tag{7.6.5}

조건부기댓값의 성질

조건부기댓값 E[YX]\text{E}[Y \vert X]XX의 함수, 즉 변환(transform)이므로 조건부기댓값 E[YX]\text{E}[Y \vert X]도 확률변수다.

만약 확률변수 YY가 확률변수 XX의 값을 독립변수로 하는 결정론적 함수값이라면

Y=g(X)(7.6.6)Y = g(X) \tag{7.6.6}

사용자가 XX의 값을 어떤 값 xx로 정하는 순간 YY의 값도 결정되어 버리기 때문에 Y=g(X)Y=g(X)는 더이상 확률적인 값이 아니라 상수가 된다.

E[YX]=E[g(X)X]=g(X)(7.6.7)\text{E}[Y \vert X] = \text{E}[g(X) \vert X] = g(X) \tag{7.6.7}

같은 방식으로 확률변수 XXYY가 결정론적 함수 관계가 아닐 때도 다음 등식이 성립한다.

E[g(X)YX]=g(X)E[YX](7.6.8)\text{E}[g(X) Y \vert X] = g(X) \text{E}[Y \vert X] \tag{7.6.8}

전체 기댓값의 법칙

조건부기댓값은 확률변수이므로 조건이 되는 확률변수에 대해 다시 기댓값을 구할 수 있다. 이렇게 반복하여 구한 조건부기댓값의 기댓값은 원래 확률변수의 댓값과 같다.

EX[EY[YX]]=EY[Y](7.6.9)\text{E}_X[\text{E}_Y[Y \vert X]] = \text{E}_Y[Y] \tag{7.6.9}
E[E[YX]]=E[Y](7.6.10)\text{E}[\text{E}[Y \vert X]] = \text{E}[Y] \tag{7.6.10}

이를 전체 기댓값의 법칙(law of total expectation) 또는 반복 기댓값의 법칙(law of iterated expectation) 이라고 한다.

조건부분산

조건부기댓값을 정의한 것처럼 조건부분산(conditional variance)도 다음처럼 정의할 수 있다.

VarY[YX]=EY[(YEY[YX])2X]=(YEY[YX])2fYX(yx)dy(7.6.13)\text{Var}_Y[Y \vert X] = \text{E}_Y[(Y - \text{E}_Y[Y \vert X])^2 \vert X] = \int (Y - \text{E}_Y[Y \vert X])^2 f_{Y \vert X}(y \vert x) dy \tag{7.6.13}

조건부분산은 xx의 값을 알고 있을 때 이에 대한 조건부확률분포 p(yx)p(y|x)의 분산이다.

예측문제의 관점으로 보면 조건부분산은 예측의 불확실성, 즉 예측으로 맞출 수 없는 범위를 뜻한다.

전체 분산의 법칙

확률변수의 분산은 조건부분산의 기댓값과 조건부기댓값의 분산의 합과 같다. 이를 전체 분산의 법칙(law of total variance) 라고 한다.

Var[Y]=E[Var[YX]]+Var[E[YX]](7.6.14)\text{Var}[Y] = \text{E}[\text{Var}[Y\vert X]] + \text{Var}[\text{E}[Y\vert X]] \tag{7.6.14}

E[YX]=y^\text{E}[Y\mid X] = \hat{y}로 표현하면 다음과 같이 쓸 수 있다.

Var[Y]=E[(y^y)2]+Var[y^](7.6.16)\text{Var}[Y] = \text{E}[(\hat{y}-y)^2] + \text{Var}[\hat{y}] \tag{7.6.16}

예측문제의 관점에서 조건부분산의 기댓값 E[(y^y)2]\text{E}[(\hat{y}-y)^2]은 예측 오차 즉, 편향(bias)의 평균적인 크기를 뜻한다. 조건부기댓값의 분산 Var[y^]\text{Var}[\hat{y}]은 예측값의 변동 크기다. 예측값의 변동 크기가 증가한다는 것은 예측모형이 복잡하고 비선형적이며 주어진 데이터에 과최적화되기 쉽다는 의미다. 따라서 전체 분산의 법칙이 말하고자 하는 바는 예측 오차의 크기과 예측값의 변동의 합이 일정하므로 예측 오차를 줄이면 모형이 복잡해지고 과최적화가 되며 반대로 모형을 과최적화를 막기위해 단순하게 하면 예측 오차가 증가한다. 이를 편향-분산 상충(Bias–variance Tradeoff) 법칙이라고도 한다.

profile
Connecting my favorite things

0개의 댓글