[Mathematical Statistics] 5.2 Bounded in probability | delta-method

박경민·2024년 10월 1일

[Mathematical Statistics]

목록 보기

18/24

5.2.1 Bounded in probability (확률유계)

확률유계의 개념을 알기 위해선 big-O 와 little-o notation 에 대해 알아야 한다. 아래 big-O, little-o 의 정의부터 보자.

Definition (Lindau's big-O and little-o notations). Let $\left\{x_{n}\right\}$ and $\left\{r_{n}\right\}$ be nonrandom sequences of real values.

$x_{n}:=o\left(r_{n}\right)$ iff $\left|\frac{x_{n}}{r_{n}}\right| \rightarrow 0$ as $n \rightarrow \infty$ .

little-o 의 경우 xn을 rn으로 나누게 되면 n이 무한대로 가면서 0으로 수렴한다는 것이다. 따라서 다음의 예시를 생각해볼 수 있다.

$x_{n}:=O\left(r_{n}\right)$ iff $\overline{\lim }_{n \rightarrow \infty}\left|\frac{x_{n}}{r_{n}}\right|<\infty$ iff $\exists M>0, \exists N \in \mathbb{N} \quad \text { such that } \quad \forall n \geq N, \quad\left|\frac{x_{n}}{r_{n}}\right| \leq M$

위의 notation 보다 아래의 정의를 조금 더 많이 많이 쓴다. 0보다 큰 M이 있고, 자연수 집합에 속하는 N이 있다고 했을 때 이 N보다 큰 n에 대해서 (수열의 number가 점점 더 크게 갈수록) M 으로 bound 가 된다는 것. 따라서 다음과 같은 예시가 있다.

현재 관찰 중인 수열 xn들은 왼쪽이다.
n^2/3n^2은 0으로 수렴하므로 little-이면서 big-O로 쓸 수 있다.
n^3/n^2 은 n이 커지면서 무한대로 발산하므로 bound 되지 않는다.
n/n^2 은 bound 된다.
따라서 관찰하는 수열의 leading term이 big-O notation 내의 수열보다 차수가 작거나 같을 때 big-O로 쓸 수 있다. 작거나 같다는 건 big-O 내 수열 아래로 bound 가 된다는 뜻이다.
이러한 의미로 알고리즘 등에서 계산 복잡도 등을 나타날 때 big-O를 사용했던 것이다. 우선 n이 무한대로 간다는 조건이 필요하고.. 무조건 big-O(.) 보다 작거나 같음, 이 아래로 복잡도가 떨어진다는 것이다.

비슷하게 little-o notation에서 이를 함수로 확장하면 다음과 같다.

Similarly, $f(x)=o(g(x))$ as $x \rightarrow a$ is defined by $f(x) / g(x) \rightarrow 0$ as $x \rightarrow a$ .

아래의 예시를 보자.

x^2/x = x 이므로 x 가 0으로 가면서 0으로 수렴한다.
x/sinx 를 x 가 0으로 가면 1로 수렴하므로 little-o가 아니다.

little-o 를 이용하면 테일러 전개에서도 little-o를 포함한 notation 을 쓸 수 있다. 우선 테일러 전개는, 점 y를 근사하는데 x 근처의 y를 써서 이를 x에 대한 식으로 전개함으로 간단히 말할 수 있겠고.. 이때 절편은 g(x), 기울기는 g'(x) 다.

그런데 마지막 항은 이 항 자체를 |y-x| 로 나누고 y -> x 로 보내게 되면 0으로 수렴할 수 있으므로 by def. = o(|y-x|) 로 바꿀 수 있다. 따라서 y가 x로 갈 때 다음과 같이 테일러 전개를 little-o를 포함하는 식으로 바꿀 수 있다. 이는 이어지는 delta method 를 증명할 때 잠깐 사용되는 내용이니 챙겨두자.

Example: Taylor expansion. Suppose $g(x)$ is differentiable at $x$ . Then we can write

g(y)=g(x)+g^{\prime}(x)(y-x)+o(|y-x|) \quad \text { as } y \rightarrow x

big-O와 litte-o에 대한 간단하 성질들을 보자. 이는 직관적으로 쉽게 이해할 수 있는 내용으로, 다른 증명은 하지 않고 자유롭게 쓰도록 하자.

Properties. (big-O & little-o)

$x_{n}=o(1) \Longleftrightarrow x_{n} \rightarrow 0$ . In addition, $x_{n}=o(1) \Longrightarrow x_{n}=O(1)$
$x_{n}=O(1) \Longleftrightarrow\left\{x_{n}\right\}$ is bounded.
$x_{n}=o\left(r_{n}\right) \Longleftrightarrow x_{n} / r_{n}=o(1)$ and $x_{n}=O\left(r_{n}\right) \Longleftrightarrow x_{n} / r_{n}=O(1)$ .
$x_{n}=o(1), y_{n}=o(1) \Longrightarrow x_{n}+y_{n}=o(1)$ and $x_{n} y_{n}=o(1)$
(simply say $o(1)+o(1)=o(1)$ and $o(1) o(1)=o(1)$ ).
$x_{n}=O(1), y_{n}=o(1) \Longrightarrow x_{n}+y_{n}=O(1)$ and $x_{n} y_{n}=o(1)$ .
$x_{n}=O(1), y_{n}=O(1) \Longrightarrow x_{n}+y_{n}=O(1)$ and $x_{n} y_{n}=O(1)$ .

확률유계를 알기 위해선 여기에서 그치지 않고 Big-O-p 와 little-o-p 를 알아야 한다. p가 들어간 이유는, 이전에는 각 xn, rn 수열을 나눈 것이 0으로 수렴한다면, 지금은 Xn, Rn 확률변수가 도입되고, 이 둘을 나눈 것이 0으로 확률수렴한다. (little-o-p 의 정의) 이에 대한 정의를 보자.

Definition (Big-O-p and little-o-p notations). Let $\left\{X_{n}\right\}$ and $\left\{R_{n}\right\}$ be sequences of random variables.

$X_{n}:=o_{p}\left(R_{n}\right)$ iff $\left|\frac{X_{n}}{R_{n}}\right| \xrightarrow{P} 0$ as $n \rightarrow \infty$ iff $\forall \epsilon>0, P\left(\left|\frac{X_{n}}{R_{n}}\right|>\epsilon\right) \rightarrow 0$ .

확률수렴은 다른 말로 0보다 큰 임의의 앱실론이 존재하여 해당 변수가 앱실론을 벗어날 확률이 0을 보이는 것이었고, 따라서 iff 뒤의 두 notation 을 번갈아쓴다.

$X_{n}:=O_{p}\left(R_{n}\right)$ iff $\forall \epsilon>0, \quad \exists M>0 \& \exists N \in \mathbb{N} \quad \text { s.t. } \quad \forall n \geq N, \quad P\left(\left|\frac{X_{n}}{R_{n}}\right|>M\right)<\epsilon$

Big-O-p 는 임의의 앱실론 외에도 M이 도입되어 이 변숙 M 밖에 위치할 확률이 앱실론 밑으로 bound 될 경우를 뜻한다. 아래의 경우를 보자.

정규분포를 따르는 X의 pdf 라 하자. 그리고 cdf 를 적분하여 더해간다고 할 때,
에타1, 에타2를 다음과 같이 given 앱실론의 확률 바깥에 위치하도록 잡을 수 있다.

F_{X}(x)<\epsilon / 2 \text { for } x \leq \eta_{1} \text { and } F_{X}(x)>1-(\epsilon / 2) \text { for } x \geq \eta_{2}

하나의 에타를 더 큰 에타로 max 로 정한다면, X가 에타 안에 들어갈 확률은 (에타 자체를 잡을 때 앱실론 안에 들어가도록 했으므로) 1-앱실론보다 작음을 보일 수 있다. -> 무조건 들어간다는 뜻이고, 여기서 포인트는 앱실론 밑으로 확률이 떨어진다보다 (이는 임의의 앱실론에서 가능하므로 0과 가까움을 이야기하고 싶다는 표현이고) 어쨌든 계산된 확률변수가 M 안의 범위로 bound 된다는 것이다. M 또한 임의의 수이므로 매우 크거나 작게 조절할 수 있다.
Let $\eta=\max \left\{\left|\eta_{1}\right|,\left|\eta_{2}\right|\right\}$ . Then $P[|X| \leq \eta]=F_{X}(\eta)-F_{X}(-\eta-0) \geq 1-(\epsilon / 2)-(\epsilon / 2)=1-\epsilon$

위 그림에서는 Xn 만 설정하여 Xn/1 이 M으로 bound 됨을 보였는데, 이렇게 big-O 안에 1이 들어 Xn 변수 자체만 볼 수 있다면, if $X_{n}=O_{p}(1)$ 로 쓸 수 있고, 이때의 $X_{n}$ is call bounded in probability (확률 적으로 유계임) or stochastically bounded.

따라서 Xn이 확률유계다~ 라고 한다면 0으로 수렴하는 것이 아닌 해당 변수가 M으로 bound 됨을 생각하면 되고,
임의의 양수 앱실론, M, N이 존재할 때 다음이라 생각하고 알아두자.
$P\left(\left|\frac{X_{n}}{R_{n}}\right|>M\right)<\epsilon$

Big-O-p 와 litte-o-p 도 직관적으로 아래의 성질들이 가능함을 보일 수 있다.

Properties. nonrandom big-O and little-o notations.

For a sequence of nonrandom numbers $\left\{x_{n}\right\}, x_{n}=o(1) \Longleftrightarrow x_{n}=o_{p}(1)$ and $x_{n}=O(1) \Longleftrightarrow x_{n}=O_{p}(1)$ .
$X_{n}=o_{p}(1) \Longleftrightarrow X_{n} \xrightarrow{P} 0$ . In addition, $X_{n}=o_{p}(1) \Longrightarrow X_{n}=O_{p}(1)$ .
$X_{n}=O_{p}(1) \Longleftrightarrow\left\{X_{n}\right\}$ is bounded in probability (it is by definition).
$X_{n}=o_{p}\left(R_{n}\right) \Longleftrightarrow X_{n} / R_{n}=o_{p}(1)$ and $X_{n}=O_{p}\left(R_{n}\right) \Longleftrightarrow X_{n} / R_{n}=$ $O_{p}(1)$ .
$X_{n}=o_{p}(1), Y_{n}=o_{p}(1) \Longrightarrow X_{n}+Y_{n}=o_{p}(1)$ and $X_{n} Y_{n}=o_{p}(1)$
( simply say $o_{p}(1)+o_{p}(1)=o_{p}(1)$ and $\left.o_{p}(1) o_{p}(1)=o_{p}(1)\right)$ .
$X_{n}=O_{p}(1), Y_{n}=o_{p}(1) \Longrightarrow X_{n}+Y_{n}=O_{p}(1)$ and $X_{n} Y_{n}=o_{p}(1)$ (Theorem 5.2.7).
$X_{n}=O_{p}(1), Y_{n}=O_{p}(1) \Longrightarrow X_{n}+Y_{n}=O_{p}(1)$ and $X_{n} Y_{n}=O_{p}(1)$ .

이어지는 내용으로 계속해서 성질들을 다루되 증명할 것 3가지와 그냥 알아둘 것 1가지가 있다.

(그냥 알아둘 성질1)
$X_{n} \xrightarrow{D} X \Longrightarrow X_{n}=O_{p}(1)$ .

Xn이 X로 분포수렴한다면 Xn은 M에 의해 bound 가 되는 확률유계가 된다.

(증명할 성질1)
if $f(x)=o(g(x))$ as $x \rightarrow a$ and $X_{n} \xrightarrow{P} a$ , then $f\left(X_{n}\right)=$ $o_{p}\left(g\left(X_{n}\right)\right)$ .

(증명할 성질2)
$X_{n}=O_{p}(1)$ and $Y_{n} \xrightarrow{P} 0 \Longrightarrow X_{n} Y_{n} \xrightarrow{P} 0$ (i.e., $\left.O_{p}(1) o_{p}(1)=o_{p}(1)\right)$ . -> big-O-p 인 확률유계와 op(1) 인 두 변수를 곱하하면 op(1) 이 된다.

(증명할 성질3)
Suppose $X_{n}=o_{p}\left(Y_{n}\right)$ and $Y_{n}=O_{p}(1)$ . Then $X_{n}=o_{p}(1)$ . -> op 안으로 Big-O-p 인 확률 유계가 들어가면 op로이다.
Proof. Let $a, \epsilon>0$ be given. Because the sequence $\left\{Y_{n}\right\}$ is bounded in probability, there exist positive constants $N_{1}$ and $B$ such that

n \geq N_{1} \Longrightarrow P\left(\left|Y_{n}\right|>B\right) \leq \frac{\epsilon}{2}

Also, because $X_{n}=o_{p}\left(Y_{n}\right)$ , there exist $N_{2}>0$ such that

n \geq N_{2} \Longrightarrow P\left(\left|\frac{X_{n}}{Y_{n}}\right| \geq \frac{a}{B}\right) \leq \frac{\epsilon}{2}

Choose $N=\max \left\{N_{1}, N_{2}\right\}$ . For all $n \geq N$ , we then have

\begin{aligned} P\left(\left|X_{n}\right| \geq a\right) & =P\left(\left|X_{n}\right| \geq a,\left|Y_{n}\right| \leq B\right)+P\left(\left|X_{n}\right| \geq a,\left|Y_{n}\right|>B\right) \\ & \leq P\left(\left|\frac{X_{n}}{Y_{n}}\right| \geq \frac{a}{B}\right)+P\left(\left|Y_{n}\right|>B\right) . \\ & \leq \epsilon \end{aligned}

Thus, $X_{n}=o_{p}(1)$ .

5.2.2 $\Delta$ -method (델타-방법)

지금까지 다룬 정리와 증명을 포함하여 아래 델타method 를 증명한다. 델타 방법은, (0, 모분산)으로 수렴하는 확률변숙 있다면 여기에 non-linear 변환을 거친 것이 어떤 분포를 따르느냐 하는 것이다. 예컨대 표본평군의 제곱의 분포, square root 를 씌웠을 때 어떤 분포를 따를 지 궁금할 수 있다.

Theorem ( $\Delta$ -method). Let $\left\{X_{n}\right\}$ be a sequence of random variables, 다음이 주어질 때

\sqrt{n}\left(X_{n}-\theta\right) \xrightarrow{D} N\left(0, \sigma^{2}\right)

Suppose the function $g(x)$ is differentiable at $\theta$ and $g^{\prime}(\theta) \neq 0$ . Then 아래의 것을 보이고 싶다.

\sqrt{n}\left(g\left(X_{n}\right)-g(\theta)\right) \xrightarrow{D} N\left(0, \sigma^{2}\left(g^{\prime}(\theta)\right)^{2}\right) .

(Proof.) First, we claim that the assumption implies $X_{n} \xrightarrow{P} \theta$ , since the in-distribution convergence of $\sqrt{n}\left(X_{n}-\theta\right)$ implies $\sqrt{n}\left(X_{n}-\theta\right)=O_{p}(1)$ and $X_{n}-\theta=$ $O_{p}(1 / \sqrt{n})$ .

여기까지의 내용은 in disribution convergence 가 있다면 Xn은 확률 유계라는 (그냥 알아둘 성질1)을 쓴 것이다.
Now, using Taylor expansion of $g$ at $\theta$ , we have

g(t)=g(\theta)+g^{\prime}(\theta)\left(t-\theta\right)+o(|t-a|) \quad \text { as } t \rightarrow a

Combining this with $X_{n} \xrightarrow{P} \theta$ , we obtain

여기서는 (증명할 성질1), 함수에 있어서 확률변수와 little-o-p 를 끼워넣는 방법을 써서, 아래를 얻을 수 있다.

g\left(X_{n}\right)=g(\theta)+g^{\prime}(\theta)\left(X_{n}-\theta\right)+o_{p}\left(\left|X_{n}-\theta\right|\right), \quad \text { as } n \rightarrow \infty

이를 square root n을 곱하고 넘겨서 정리하면 다음이 나온다.

\sqrt{n}\left(g\left(X_{n}\right)-g(\theta)\right)=g^{\prime}(\theta) \sqrt{n}\left(X_{n}-\theta\right)+o_{p}\left(\sqrt{n}\left|X_{n}-\theta\right|\right)

우리는미 $\sqrt{n}\left|X_{n}-\theta\right|=O_{p}(1)$ 임을 밝혀두었었고, little-o-p 안에 Big-O-p 가들어가있는 구조로 이는 liitle-o-p(1)로 수렴한다. (이는 증명할 성질 3)을 쓴 것이다. 마지막 term 이 0으로 가고, by Slutsky's theorem, ( $\sqrt{n}\left(X_{n}-\theta\right)$ 가 분포 수렴하는 상황에서 $g^{\prime}(\theta)$ 상수가 곱해져있으므로)

결론: the limiting distribution of $\sqrt{n}\left(g\left(X_{n}\right)-g(\theta)\right)$ is the same as the limiting distribution of $g^{\prime}(\theta) \sqrt{n}\left(X_{n}-\theta\right)$ , which concludes the proof.

주어진 식에서 $\sqrt{n}\left(X_{n}-\theta\right) \xrightarrow{D} N\left(0, \sigma^{2}\right)$ 은 이미 가정이므로, 여기에 $g^{\prime}(\theta)$ 를 곱하게 되면 $g^{\prime}(\theta)\sqrt{n}\left(X_{n}-\theta\right) \xrightarrow{D} N\left(0, \sigma^{2}(g^{\prime}(\theta))^2\right)$ (분산만 제곱으로 끼워넣어주므로) 이다. 따라서 증명을 마무리할 수 있다.

Example. $\sqrt{n}(\bar{X}-\mu) \xrightarrow{D} N\left(0, \sigma^{2}\right)$ . 를 가정할 때 이를 제곱한 $\sqrt{n}\left(\bar{X}^{2}-\mu^{2}\right)$ 은 어떤 분포를 따를지 보이자. 여기서는 nonlinear 변환이므로 위의 델타 method 를 쓸 수 있다.

g(x)=x^{2}, \quad g^{\prime}(x)=2 x \quad \therefore g^{\prime}(\mu)^{2}=4 \mu^{2} \\ \therefore \sqrt{n}\left(\bar{X}^{2}-\mu^{2}\right) \xrightarrow{D} N\left(0,4 \mu^{2} \sigma^{2}\right)

박경민

Mathematics, Algorithm, and IDEA for AI research🦖

이전 포스트

[Mathematical Statistics] 5.2 Convergence in distribution

다음 포스트

[Mathematical Statistics] 5.2 Bounded in probability | delta-method