확률 변수 X의 확률 함수나 분포 함수를 알고 있다고 할 때, X에 관한 함수 Y=g(X)의 분포를 알고 싶은 경우가 있다. X의 분포 정보를 바탕으로 g(X)의 분포를 알아내는 과정을 확률 변수의 변환이라고 한다.
확률 변수의 변환은 다양한 분포를 다루기 위한 효과적인 방법이며, 복잡한 분포를 더 단순한 형태로 변환하는 데 유용하게 사용된다.
대표적인 경우로 X를 평균과 표준 편차로 표준화 시킬 때, Y=σX−μ라는 X에 대한 함수를 이용한다. 여기서는 g(X)=σX−μ가 될 것이다.
표준화를 할 경우 Y의 값은 X가 평균으로부터 몇 표준편차 떨어져 있는지로 해석할 수 있다. 즉 표준편차라는 단위가 생기므로 서로 다른 자료라도 각각의 표준편차를 이용해 비교할 수 있게 된다.
확률 변수의 변환은 확률 변수가 이산형인지, 연속형인지에 따라 방법이 조금씩 다르다. 따라서 각 케이스에 따라 살펴보자.
이산형 확률 변수
g(X)가 단조함수인 경우 g(X)가 단조함수이면 각각의 X값과 g(X)값이 하나씩 대응된다. 그리고 g(X)의 역함수가 존재하기 때문에 다음이 성립한다.
P(Y=y)=P(g(X)=y)=P(X=g−1(y))
예를 들어 P(X=x)=(x3)(32)x(31)3−xI(x∈{0,1,2,3})라고 하자.
이 때 Y=X2라고 하면 일반적으로 Y의 역함수는 존재하지 않는다. 그러나 X의 서포트가 {0,1,2,3} 이므로, X=g−1(Y)=Y가 성립한다.
따라서 P(Y=y)=P(X=Y)이므로, Y의 확률 함수는 다음과 같다.
P(Y=y)=(y3)(32)y(31)3−yI(y∈{0,1,4,9})
g(X)가 단조함수가 아닌 경우 g(X)가 단조함수가 아닌 경우에 보편적으로 쓸 수 있는 방법론은 없다. 대신 X의 서포트의 모든 원소를 각각 g(X)에 넣어 Y의 서포트를 완성하고, P(Y=y)를 각각의 y마다 계산해서 구해야 한다.
예를 들어 P(X=x)=41I(x∈{−2,0,1,2})라고 하고, Y=X4라고 하자.
X4는 역함수가 존재하지 않고, X의 서포트의 원소도 음수와 양수를 모두 포함하므로 첫번째 방법을 사용할 수 없다.