5.1 절에서는 확률수렴의 정의와 확률수렴을 사용해서 보일 수 있는 것들을 다뤘다. 확률수렴의 정의는 다음과 같다.
sequence of random variable 이 random variable 로 convergence in probability 한다는 것은.. 임의의 고정된 양수 엡실론에 대해, Xn 과 X 각 확률변수 차가 앱실론 밖으로 나갈 확률이 n이 무한대로 갈 때 0이라는 것이다. 이때 Xn, X 는 확률변수이므로 '규칙', 즉 sample space 의 원소인 w을 input 으로 받고 output 을 실수 전체 집합으로 하는 규칙 자체를 말한다. 따라서 둘 output 의 차이가 엡실론보다 커지는 input 집합의 확률이 0으로 간다, 와 같은 notation 이다.
이러한 확률 수렴은 두 확률변수가 있을 때 이들 사이의 사칙 연산, continuous function 변환에도 보존되었다. (각각의 수렴이 결과의 수렴으로 보존되었다.) 그리고 이를 바탕으로 in probability 수렴이 작동하는 예시를 확인했다. n이 무한대로 갈 때 표본을 가지고 얻은 추정량이 모수로 in probability 수렴함을 보이고, 이렇게 확률 수렴하는 추정량을 일치추정량이라 하였다. (이를 표본평균이 모평균에 대해 확률수렴함을, 표본분산/표본표준편차가 모분산/모표준편차에 대해 수렴함을 증명함으로써 예제를 풀었다.)
이어지는 내용은 in distribution 수렴, 분포 수렴이다. 분포 수렴의 정의와 성질부터 (분포수렴은 일반적으로 사칙연산이 보존되지 않는 것이 trivial 한 성질이나 non-trivial 한 counter example 들도 챙겨야 한다.) 분포수렴 & 확률수렴의 관계를 다뤄보자.
5.2 Convergence in distribution
Convergence in distribution (분포수렴)
Definition. Let {Xn} be a sequence of random variables and let X be a random variable. Let FXn and FX be, respectively, the cdfs of Xn and X. Let C(FX) denote the set of all points where FX is continuous. We say that Xn converges in distribution (분포수렴) to X if
여기서도 마찬가지로 Xn은 확률변수의 sequnce 이고, X는 확률변수이다. 그리고 이들 각각의 cdf 가 존재한다고 하자. (분포수렴이므로 둘 간의 cdf 가 수렴한다고 직관적으로 이해하자.)
수렴의 범위는 Xn 이 아닌 X의 cdf 인 Fx 가 연속인 점에서만, 이다. 그리고 이 점들을 C(Fx) 라 한다. 아래의 예제들에서는 cdf 가 한 점에서 연속이 아닌 분포들이 등장한다. 예컨대 아래 그림과 같은 Fx 가 있으면 불연속인 점들을 제외한 연속인 점들에서만 수렴함을 보이면 된다.
정의는 다음과 같고, 이 notation 을 통해 여러가지 확률변수들이 분포 수렴함을 보일 것이다. Xn 의 cdf 가 n이 무한대로 갈 때 임의의 고정 x점 (x는 Fx 가 연속인 점들만)에서 X 의 cdf 로 수렴함을 보이면 된다.
정의 자체가 어렵게 느껴질 수 있으나 익숙하지 않아서고, 이름부터 분포 수렴이니 두 확률변수 사이의 cdf 분포들이 n이 무한대로 갈 때 수렴한다고 보면 된다. (X의 cdf 가 연속인 점에서만 고려하는 이유는 아래에 이어진다.)
이를 다음과 같이 denote 한다.
We denote this convergence by
XnDX.
이때, target 이 되는 X 확률변수가 확실히 어떤 분포 (여기선 N(0,1)이라 해보자.) 를 따르고 있다면 확률변수 자리에 그냥 분포로 수렴한다고 적어도 된다.
XnDN(0,1).
notation 상 중요한 것은 normal(0,1) 의 pdf 를 이상상하면 안되고 cdf 로 수렴함을 명심해야 할 것이다. 예컨대 XnD0 과 같은 notation 이 등장할 경우도 후에 있는데, 이는 0으로 수렴한다는 것이 아니라 0에서 확률이 1이고 나머지가 0인 mass 를 가지는 cdf 로 수렴한다는 notation 이다. 따라서 이런 노테이션이 있다면 0의 좌극한으로는 0으로 수렴하고, 우극한과 함숫값은 1일 것이다.
그렇다면 왜 X가 연속인 C(FX)에서만 수렴함을 고려할까? 아래의 예제를 보자.
Example. (Motivation for considering only points of continuity of X ) Let Xn≡1/n and X≡0. Observe that
XnDX by definition.
Xn은 1/n 인 값만 가지는 확률변수이고, X는 0인 값만 가지는 확률변수이다. 이들의 cdf 를 각각 그려보면 다음과 같다.
따라서 C(Fx) = R−0 인 집합에서만 정의된다. 이 cdf 를 식으로 각각 쓰면 다음과 같다.
둘 다 우극한에서 함숫값도 포함이 된다.
x가 연속인 구간에서만 이제 증명하자.
x가 0보다 클 때는 n이 무한대로 갈 때 Fxn(x) 는 1로 수렴한다. 따라서 Fx(x) 와 같은 값을 가진다.
x가 0보다 작을 때는 n이 무한대로 갈 때 Fxn(x) 는 0으로 수렴하고, 따라서 Fx(x)와 같은 값을 가진다.
만약 X가 연속인 구간이 아닌 x= 0인 지점을 정확히 찍으면, Fxn(0)은 0일 것이고 Fx(x)=1 이므로 일치하지 않는다. 따라서 이 점은 분포 수렴에선 다루지 않는다.
아래의 이어지는 예시는 Xn 이 N(0, 1/n) 을 따를 떄 n을 무한대로 보내면 cdf 가 직관적으로 생각하는 분포로 분포 수렴할 지에 대한 증명이다. 그림을 보자.
n = 1일 땐 분산이 1인 정규분포이므로 잘 아는 그래프지만 n이 커질 수록 0을 벗어나는 확률들이 줄어들고 결국은 n이 무한대로 가면 0에서만 1의 mass 를 가지는 분폭 될 것이다. 그럼 N(0, 1/n) 을 따르는 Xn을 무한대로 보내면 가장 아래의 cdf 로 수렴할까? 직접 계산하면 된다!
이는 임의의 양수 엡실론에 대해 성립해야 하므로 부등식 왼쪽 끝과 오른쪽 끝에 limit 을 취하여 이들이 같음을 보이고, 따라서 limit FXn(x) 이 존재함을 보일 수 있다.
그러나 아래에 이어지는 내용은 이 statement 의 역은 성립하지 않음을 보여준다.
Remark. The converse of Theorem 5.2.1 is not true in general. i.e., convergence in distribution DOES NOT impliy convergence in probability.
(Counterexample) Let X be a continuous random variable with a pdf fX(x) that is symmetric about 0 ; i.e., fX(−x)=fX(x). Then it is easy to show that the density of the random variable −X is also fX(x). Thus, X and −X have the same distributions. Define the sequence of random variables Xn as
만약 sequence of Xn을 n이 홀수일 때와 짝수일 때로 다르게 주고, 홀수일 때 X를, 짝수일 때 -X를 취하도록 한다고 해보자. 그리고 symmetric 한 분포로 각각이 Xn와 X 각각이 N(0,1) 을 따른다고 한 분포를 찍어보자.
그렇다면 Clearly, FXn(x)=FX(x) for all x in the support of X 일 것이다. cdf 가 같으니까 이를 쉽게 보일 수 있다! 따라서 XnDX. 분포수렴은 되지만..
확률 수렴이 되는지를 아래 정의에 따라 써볼 수 있다. (By the definition of convergence in probability,)
n이 odd 라면 p(0>=ϵ) 이므로, 엡실론은 임의의 양수로만 정의되므로 0인 반면에 n이 even 이라면 2|X| 가 된다. 이미 X는 N(0,1) 분포를 따르고 있으므로, 이 값이 앱실론보다 큼은 자명하다.
따라서 Xn↛X in probability. 라고 쓸 수 있다. 이처럼 분포 수렴은 확률수렴을 imply 하지 않는다.
사칙연산에 대해 보존이 되지 않는 분포 수렴이지만 continuous function 에 대해선 보존이 된다. 예컨대, Xn 이 N(0,1) 을 따르는 X로 수렴한다면, Xn의 제곱 또한 X의 제곱의 분포, 카이제곱(1)의 분포로 수렴할 것이다. 마찬가지로, 분포수렴이라면, 연속함수를 거쳐 나온 어떤 Xn 변수가 같은 함수를 거쳐나온 X가 따르는 분포로 수렴할 것임을 알 수 있다.
Theorem (Slutzky's Theorem). Let Xn,X,An, and Bn be random variables and let a and b be constants. If XnDX,AnPa, and BnPb, then
An+BnXnDa+bX.
분포 수렴에서 사칙연산은 안되지만 상수배와 더하기의 경우에 그 상수배해주는 변수, 더해지는 변수가 확률변수가 아닌 상수로 수렴한다면 수렴이 가능하다. 헷갈릴 수 있으므로 다시 구분하자면
Xn, An, Bn 은 모두 확률변수이고
이들이 수렴하는 건 X는 확률변수, a는 constant, b도 constant 이다.
여기까지 알았다면 다음 2가지 사실을 더 보일 수 있다.
e.g. Consider T=S/nXˉ−μ.
주어진 통계량이 왜 N(0,1) 을 따르는지 (완전한 증명은 아니지만) Slustsky's theorem 을 통해 확인할 수 있다. 표본분산을 모분산으로 갈아끼고 모분산을 표본분산으로 나눈 것을 곱하는 식으로 식을 변형하자. 모분산을 포함한 앞쪽은 N(0,1) 로 분포 수렴한다고 하자. (이에 대한 정확한 증명은 5.3 절에서 다룬다.) 그리고 모분산을 모표준편차로 나눈 것은 in probability 1로 수렴함을 이전에 보였다. 따라서 통계량 T는 Zn 이 normal (0,1) 을 따르는 Z로 분포수렴하는 변수에, An 이 a로 in probability 수렴하는 것을 곱한 것과 같다.
(1)ZnDZ(Z는N(0,1)을따름)
(2)AnDa(a는constant)
(3)ZnxAnDaZ
여기서 (1) & (2) -> 3으로 넘어올 떄 Slutzky's Theorem이 사용되었다.
Remark. XnDX&YnDY does not imply Xn+YnDX+Y nor XnYnDXY.
각 확률변수가 분포 수렴한다고 해도 이들을 더하거나 곱한 것이 수렴하진 않는다. 반례는 두 seqence Xn, Yn 를 N(0,1) 을 따르도록 두고, X 은 N(0,1) 을 따르도록 두되 Y := -X로 주면 반례가 된다.
(Counterexample for Xn+YnDX+Y )
마지막 N(0,2)가 0이 아님에 대한 건 N(0,2)의 cdf 에 limit 을 취하고, 이것이 0이 아님을 보이면 된다.