이번 포스팅에서는 흔히들 정규분포를 따른다고 하는 ln(Odds) 가 정확히 어떤 분포를 따르는지 관찰해보겠습니다.
먼저 ln(Odds) 는 엄밀히 말하면 분포가 아니라 함수입니다.
이것이 어떤 분포를 따르는지 관찰하겠다는 것은
특정 분포를 따르는 X 를 ln(Odds) 에 넣었을 때 생겨나는 ln(Odds(X)) 가 어떤 분포를 따르는지 관찰하겠다는 말과 같습니다.
여기서 우리의 관심사는 X 가 아닌 ln(Odds) 이므로 X 는 최대한 무난한 분포로 고르는 것이 좋겠죠.
따라서 X 를 다음과 같은 확률밀도함수를 가지는 분포로 정의하겠습니다. (굉장히 무난무난하죠)
f(x)=1(0<x<1)
그리고 ln(Odds(X))=ln(1−XX)=T 라 하고, T 의 확률밀도함수를 구해보겠습니다.
유도를 위한 핵심 아이디어는 다음과 같습니다.
ln(Odds) 는 0.5를 0으로, x를 ln(1−xx) 로 대응시킨다.
따라서 P(0.5<X<x)=P(0<T<ln(1−xx)) 이다. ⋯ ①
여기서 ln(1−xx)=t 라 하고 x 에 관해 정리하면,
⇒1−xx=et
⇒x=et−xet
⇒(et+1)x=et
⇒x=1+etet
⇒x=e−t+11
이므로 ① 을 다음과 같이 바꾸어 쓸 수 있습니다.
P(0.5<X<e−t+11)=P(0<T<t)
X의 확률밀도함수가 y=f(x)=1 이므로
P(0.5<X<e−t+11)=e−t+11−0.5
입니다.
그리고 T 의 확률밀도함수를 y=g(t) 라고 하면 P(0<T<t)=∫0tg(x)dx 이므로 다음이 성립합니다.
∫0tg(x)dx=e−t+11−0.5
양변을 t에 대해 미분하면
g(t)=dtd(e−t+11)
⇒g(t)=−(e−t+1)2−e−t=(e−t+1)2e−t
엄밀히 말하면 정규분포의 확률밀도함수는 아니지만 그래프를 그려보면 개형이 정규분포와 유사합니다.
만약 X의 확률밀도함수에 조금 변화를 준다면 ln(Odds(X)) 의 확률밀도함수가 정확히 정규분포의 그것과 일치하게 될 수도 있지 않을까 하는 생각이 듭니다.
이번 포스팅에서는 ln(Odds) 가 만들어내는 분포에 대해 살펴보았습니다.
감사합니다.