2.1 결정이론의 요소들
관측치 모형
모형: ( X , Y , ( P θ ) θ ∈ Θ ) (\mathcal{X}, \mathcal{Y}, (\mathbf{P}_\theta)_{\theta \in \Theta}) ( X , Y , ( P θ ) θ ∈ Θ )
\quad\quad → \rightarrow → X \mathcal{X} X : 표본공간, Y \quad \mathcal{Y} Y : X \mathcal{X} X 상의 σ − f i e l d \sigma-field σ − f i e l d , ( P θ ) θ ∈ Θ \quad (\mathbf{P}_\theta)_{\theta \in \Theta} ( P θ ) θ ∈ Θ : Y \mathcal{Y} Y 상의 확률 측도들의 모임.
관측치 X ∼ P θ \mathbf{X} \sim \mathcal{P}_\theta X ∼ P θ
X = ( X 1 , … , X n ) \mathbf{X}=(X_1,\ldots,X_n) X = ( X 1 , … , X n ) , P θ = Π i = 1 n f θ \quad \mathcal{P}_\theta=\Pi_{i=1}^nf_\theta P θ = Π i = 1 n f θ
행동 공간 (Action Space)
A \mathcal{A} A : 취할 수 있는 가능한 행동들의 공간.
Example
(i) 추정
X ∼ P θ \quad\mathbf{X} \sim \mathcal{P}_\theta X ∼ P θ ; θ \theta θ 의 추정이 목적.
A = Θ \quad\mathcal{A}=\Theta A = Θ
(ii) 검정
H 0 : θ ∈ Θ 0 \quad H_0:\theta \in \Theta_0\quad H 0 : θ ∈ Θ 0 vs. H 1 : θ ∈ Θ 1 \quad H_1:\theta \in \Theta_1 H 1 : θ ∈ Θ 1
A = { H 0 , H 1 } \quad A=\{H_0,H_1\} A = { H 0 , H 1 }
(iii) 순위 ranking
\quad 3개 핸드폰 회사의 순위를 매기려 한다.
A = { ( a , b , c ) , ( a , c , b ) , ⋯ } \quad \mathcal{A}=\{(a,b,c), (a,c,b), \cdots\} A = { ( a , b , c ) , ( a , c , b ) , ⋯ }
손실함수(Loss function)
L : Θ × A → R L:\Theta \times \mathcal{A}\rightarrow\mathbf{R}\quad L : Θ × A → R (참값에 action을 취했을 때의 값)
( θ , a ) ⟼ L ( θ , a ) \quad (\theta, a)\longmapsto L(\theta, a) ( θ , a ) ⟼ L ( θ , a )
L ( θ , a ) \quad L(\theta, a) L ( θ , a ) : θ \ \theta θ 가 참이고, 행동 a a a 를 취할 때, 얻어지는 손실의 양.
Example. 추정
L ( θ , a ) = ( θ − a ) 2 L(\theta, a)=(\theta-a)^2 L ( θ , a ) = ( θ − a ) 2 : 제곱손실오차
L ( θ , a ) = ∣ θ − a ∣ L(\theta, a)=|\theta-a| L ( θ , a ) = ∣ θ − a ∣ : 절댓값 손실
L ( θ , a ) = ∥ θ − a ∥ 2 L(\theta, a)=\|\theta-a\|^2 L ( θ , a ) = ∥ θ − a ∥ 2 : θ , a ∈ R k \theta, a\in\mathbf{R}^k θ , a ∈ R k 인 경우 (다변량)
L ( f , a ) = ∫ ( f ( x ) − a ( x ) ) 2 d P ( x ) L(f, a)=\int(f(x)-a(x))^2dP(x) L ( f , a ) = ∫ ( f ( x ) − a ( x ) ) 2 d P ( x ) : f , a f, a f , a : 함수인 경우.
L ( Σ , A ) = ∥ Σ − a ∥ F 2 L(\Sigma, A)=\|\Sigma-a\|_F^2\quad L ( Σ , A ) = ∥ Σ − a ∥ F 2 (Covariance matrix; Frobenius norm.)
Example. 가설검정
H 0 : θ ∈ Θ 0 H_0:\theta\in\Theta_0\quad H 0 : θ ∈ Θ 0 vs.H 1 : θ ∈ Θ 1 \quad H_1:\theta\in\Theta_1 H 1 : θ ∈ Θ 1
A = { H 0 , H 1 } , { 0 , 1 } \mathcal{A}=\{H_0, H_1\}, \{0, 1\} A = { H 0 , H 1 } , { 0 , 1 }
L ( θ , a ) = 0 L(\theta, a)=0 L ( θ , a ) = 0
L ( θ , a ) = { 0 , θ ∈ a 1 , θ ∉ a L(\theta, a) = \begin{cases} 0 &,\; \theta \in a \\ 1 &,\; \theta \notin a \end{cases} L ( θ , a ) = { 0 1 , θ ∈ a , θ ∈ / a
결정규칙 (Decision rule)
δ : X ⟼ A \delta:\mathcal{X}\longmapsto\mathcal{A} δ : X ⟼ A
x ⟼ δ ( x ) \quad\; x \longmapsto \delta(x) x ⟼ δ ( x )
→ \rightarrow → 관측치 x x x 가 정해지면, 취할 행동을 정해놓은 함수.
Example.
(i) 추정
추정량 = 결정규칙
δ ( x ) = x ˉ \delta(x)=\bar{x} δ ( x ) = x ˉ
δ ( x ) = 1 n Σ ( x i − x ˉ ) 2 \delta(x)=\frac{1}{n}\Sigma(x_i-\bar{x})^2 δ ( x ) = n 1 Σ ( x i − x ˉ ) 2
(ii) 검정
δ ( x ) = { H 0 , n σ ( x ˉ − σ 0 ) > z α H 1 , n σ ( x ˉ − σ 0 ) ≤ z α \delta(x) = \begin{cases} H_0 &,\; \frac{\sqrt{n}}{\sigma}(\bar{x}-\sigma_0)>z_\alpha \\ H_1 &,\; \frac{\sqrt{n}}{\sigma}(\bar{x}-\sigma_0)\leq z_\alpha \end{cases} δ ( x ) = { H 0 H 1 , σ n ( x ˉ − σ 0 ) > z α , σ n ( x ˉ − σ 0 ) ≤ z α
랜덤화된 결정규칙 (Randomized decision rule)
δ : X ⟼ P ( A ) \delta:\mathcal{X}\longmapsto \mathbf{P(\mathcal{A})} δ : X ⟼ P ( A ) ; A \; \mathcal{A} A 상의 확률측도들의 모임.
x ⟼ δ ( x , ⋅ ) \quad\;\; x \longmapsto \delta(x,\cdot) x ⟼ δ ( x , ⋅ ) ; A \; \mathcal{A} A 상의 확률측도
x x x 가 관측이 되면, a ∼ δ ( x , ⋅ ) a\sim\delta(x, \cdot) a ∼ δ ( x , ⋅ ) 를 생성해서 행동 a a a 를 취한다.
δ ; X × ( A \delta; \mathcal{X}\times(\mathcal{A} δ ; X × ( A 상의 σ − f i e l d ) → [ 0 , 1 ] \sigma-field) \rightarrow [0,1] σ − f i e l d ) → [ 0 , 1 ]
( x , A ) ⟼ δ ( x , A ) ∈ [ 0 , 1 ] \quad\quad\quad\quad\quad\quad\quad(x,A)\longmapsto\delta(x,A)\in[0,1] ( x , A ) ⟼ δ ( x , A ) ∈ [ 0 , 1 ]
손실함수의 계산
L ( θ , δ ( x , ⋅ ) ) = ∫ L ( θ , a ) δ ( x , d a ) L(\theta,\delta(x,\cdot))=\int L(\theta, a)\delta(x,da) L ( θ , δ ( x , ⋅ ) ) = ∫ L ( θ , a ) δ ( x , d a )
위험함수 (Risk function)
\quad\quad cf) Action에 대한 avg.가 아닌 결정규칙에 대한 avg.
θ \theta θ 가 참일 때, 결정규칙의 기대손실.
R ( θ , δ ) = ∫ L ( θ , δ ( x ) ) P θ ( d x ) = E θ [ L ( θ , δ ( x ) ) ] \begin{aligned}R(\theta,\delta)&=\int L(\theta, \delta(x))\mathcal{P_\theta(dx)}\\ &=\mathbf{E}_\theta[ L(\theta,\delta(x))] \end{aligned} R ( θ , δ ) = ∫ L ( θ , δ ( x ) ) P θ ( d x ) = E θ [ L ( θ , δ ( x ) ) ]
Example. 추정
ν ( θ ) \nu(\theta) ν ( θ ) : 추정할 모수
δ ( x ) = ν ^ ( x ) \delta(x)=\hat{\nu}(x) δ ( x ) = ν ^ ( x ) : ν \nu ν 의 추정량.
L ( θ , a ) = ( ν ( θ ) − a ) 2 L(\theta,a)=(\nu(\theta)-a)^2 L ( θ , a ) = ( ν ( θ ) − a ) 2
R ( θ , δ ) = E θ [ ν ( θ ) − δ ( x ) ] 2 = E θ [ ν ( θ ) − E θ δ ( x ) + E θ δ ( x ) − δ ( x ) ] 2 = E θ [ ν ( θ ) − E θ δ ( x ) ] 2 + E θ [ δ ( x ) − E θ δ ( x ) ] 2 = V a r ( δ ( x ) ) + { ν ( θ ) − E θ δ ( x ) } 2 = V a r θ δ ( x ) + B i a s 2 ( δ ( x ) ) ■ = M S E ( θ , δ ) \begin{aligned} R(\theta,\delta)=\mathbf{E}_\theta[\nu(\theta)-\delta(x)]^2&=\mathbf{E}_\theta[\nu(\theta)-\mathbf{E}_\theta\delta(x)+\mathbf{E}_\theta\delta(x)-\delta(x)]^2\\ &=\mathbf{E}_\theta[\nu(\theta)-\mathbf{E}_\theta\delta(x)]^2+\mathbf{E}_\theta[\delta(x)-\mathbf{E}_\theta\delta(x)]^2\\ &=Var(\delta(x))+\{\nu(\theta)-\mathbf{E}_\theta\delta(x)\}^2\\ &=Var_\theta\delta(x)+Bias^2(\delta(x))_\blacksquare \\ &= MSE(\theta,\delta) \end{aligned} R ( θ , δ ) = E θ [ ν ( θ ) − δ ( x ) ] 2 = E θ [ ν ( θ ) − E θ δ ( x ) + E θ δ ( x ) − δ ( x ) ] 2 = E θ [ ν ( θ ) − E θ δ ( x ) ] 2 + E θ [ δ ( x ) − E θ δ ( x ) ] 2 = V a r ( δ ( x ) ) + { ν ( θ ) − E θ δ ( x ) } 2 = V a r θ δ ( x ) + B i a s 2 ( δ ( x ) ) ■ = M S E ( θ , δ )
Example. 두 추정량의 비교
μ : \mu: μ : 추정하고자 하는 관악구의 소득
μ 0 : \mu_0: μ 0 : 알려진 대한민국 가구소득 평균
X 1 , ⋯ , X n ∼ N ( μ , σ 2 ) : X_1,\cdots,X_n\sim N(\mu, \sigma^2): X 1 , ⋯ , X n ∼ N ( μ , σ 2 ) : 표본추출된 관악구 거주자들의 소득
{ δ 1 = 0.2 μ 0 + 0.8 X ˉ δ 2 = X ˉ \begin{cases} \delta_1=0.2\mu_0+0.8\bar{X}&\\ \delta_2=\bar{X}& \end{cases} { δ 1 = 0 . 2 μ 0 + 0 . 8 X ˉ δ 2 = X ˉ
{ M S E μ ( δ 1 ) = R ( μ , δ 1 ) = 0.64 σ 2 n + 0.04 ( μ 0 − μ ) 2 M S E μ ( δ 2 ) = V a r μ ( X ˉ ) = σ 2 n = R ( μ , δ 2 ) \begin{cases} MSE_\mu(\delta_1)=R(\mu,\delta_1)=0.64\frac{\sigma^2}{n}+0.04(\mu_0-\mu)^2&\\ MSE_\mu(\delta_2)=Var_\mu(\bar{X})=\frac{\sigma^2}{n}=R(\mu,\delta_2)& \end{cases} { M S E μ ( δ 1 ) = R ( μ , δ 1 ) = 0 . 6 4 n σ 2 + 0 . 0 4 ( μ 0 − μ ) 2 M S E μ ( δ 2 ) = V a r μ ( X ˉ ) = n σ 2 = R ( μ , δ 2 )
δ 1 , δ 2 \delta_1,\delta_2 δ 1 , δ 2 중에 우열을 가리기가 어렵다. 이유는 함수인 R ( μ , δ ) R(\mu,\delta) R ( μ , δ ) 를 비교하기 때문.
Method 1) R ( θ , δ ) R(\theta,\delta) R ( θ , δ ) 를 숫자 하나로 만드는 방법: Bayes 방법, Minimax 방법
Method 2) 비교하는 δ \delta δ 의 모임을 줄이는 방법: UMVUE, 불변추정량
Example. 검정의 예
손실함수 (0-1 loss)
행동\참 H0 H1 H0 0 2종 오류(1) H1 1종 오류(1) 0
검정함수 (Test function)
랜덤화된 결정규칙
δ : X → [ 0 , 1 ] \delta:\mathcal{X}\rightarrow [0,1] δ : X → [ 0 , 1 ]
x ⟼ δ ( x ) = H 0 \quad\;\; x \longmapsto \delta(x)=H_0 x ⟼ δ ( x ) = H 0 를 기각할 확률.
기각역 (Rejection region)
δ ( x ) = I ( x ∈ C ) \delta(x)=I(x\in C) δ ( x ) = I ( x ∈ C ) ,C : \quad C: C : 기각역
위험함수
δ ( x ) = I ( x ∈ C ) \delta(x)=I(x\in C) δ ( x ) = I ( x ∈ C ) 라 하자.
R ( θ , δ ) = E θ L ( θ , δ ( X ) ) = { E θ δ ( x ) , if θ ∈ Θ 0 E θ ( 1 − δ ( x ) ) , if θ ∈ Θ 1 = { P θ ( X ∈ C ) , if θ ∈ Θ 0 P θ ( X ∉ C ) , if θ ∈ Θ 1 = { H 0 가 참일 때 H 1 을 선택하는 확률 , if θ ∈ Θ 0 ; 1종오류 확률 H 1 이 참일 때 H 0 를 선택하는 확률 , if θ ∈ Θ 1 ; 2종오류 확률 \begin{aligned} R(\theta,\delta) &= E_{\theta} L(\theta,\delta(X)) \\ &= \begin{cases} \mathbf{E}_\theta\delta(x), & \text{if } \theta \in \Theta_0 \\ \mathbf{E}_\theta(1-\delta(x)), & \text{if } \theta \in \Theta_1 \end{cases}\\ &= \begin{cases} P_{\theta}(X \in C), & \text{if } \theta \in \Theta_0 \\ P_{\theta}(X \notin C), & \text{if } \theta \in \Theta_1 \end{cases}\\ &= \begin{cases} H_0 \text{가 참일 때 }H_1 \text{을 선택하는 확률}, & \text{if } \theta \in \Theta_0 \quad; \text{1종오류 확률}\\ H_1 \text{이 참일 때 }H_0 \text{를 선택하는 확률}, & \text{if } \theta \in \Theta_1\quad; \text{2종오류 확률} \end{cases} \end{aligned} R ( θ , δ ) = E θ L ( θ , δ ( X ) ) = { E θ δ ( x ) , E θ ( 1 − δ ( x ) ) , if θ ∈ Θ 0 if θ ∈ Θ 1 = { P θ ( X ∈ C ) , P θ ( X ∈ / C ) , if θ ∈ Θ 0 if θ ∈ Θ 1 = { H 0 가 참일 때 H 1 을 선택하는 확률 , H 1 이 참일 때 H 0 를 선택하는 확률 , if θ ∈ Θ 0 ; 1 종오류 확률 if θ ∈ Θ 1 ; 2 종오류 확률
2.2 결정규칙의 비교
δ \delta δ 는 δ ′ \delta' δ ′ 보다 더 좋다. (improve)
⟺ ( i ) R ( θ , δ ) ≤ R ( θ , δ ′ ) , ∀ θ ∈ Θ ( i i ) R ( θ , δ ) < R ( θ , δ ′ ) 인 θ ∈ Θ 존재 . \begin{aligned} \iff &(i)\; R(\theta,\delta) \leq R(\theta,\delta'), \; \forall\theta \in \Theta\\ &(ii)\; R(\theta,\delta)<R(\theta,\delta')인\;\; \theta\in\Theta\;\; 존재. \end{aligned} ⟺ ( i ) R ( θ , δ ) ≤ R ( θ , δ ′ ) , ∀ θ ∈ Θ ( i i ) R ( θ , δ ) < R ( θ , δ ′ ) 인 θ ∈ Θ 존 재 .
허용가능(admissible), 허용불가능(inadmissible)
δ : \delta: δ : 허용 불가능 ⟺ \iff ⟺ δ \delta δ 보다 더 좋은 δ ′ \delta' δ ′ 존재. \quad\quad i.e. 더 좋은게 있으면 쓰지 말아야. "나쁘다"
δ : \delta: δ : 허용 가능 ⟺ \iff ⟺ δ \delta δ 는 허용 불가능하지 않다. \quad\quad but, 허용 가능하다고 good? No. "나쁘지 않다" 정도.
베이즈 규칙 (Bayes rule)
(i) 베이즈 위험(Bayes risk)
r ( π , δ ) = ∫ Θ R ( θ , δ ) π ( d θ ) \quad r(\pi,\delta)=\int_\Theta R(\theta,\delta)\pi(d\theta) r ( π , δ ) = ∫ Θ R ( θ , δ ) π ( d θ ) , π : Θ \quad \pi:\Theta π : Θ 위에 정의된 분포.(사전분포, prior)
(ii) 사전분포 π \pi π 에 대한 베이즈 규칙
δ B : = arg min δ r ( π , δ ) \quad \delta^B:= \underset{\delta}{\arg\min}\ r(\pi,\delta) δ B : = δ arg min r ( π , δ )
최소최대규칙 (Minimax rule)
δ m : = arg min δ max θ ∈ Θ r ( π , δ ) \delta^m:= \underset{\delta}{\arg\min}\;\underset{\theta \in\Theta}{\max}\; r(\pi,\delta) δ m : = δ arg min θ ∈ Θ max r ( π , δ ) ⇒ \quad\quad\quad \Rightarrow\quad ⇒ 가장 위험한 일을 하지 않는 것. (e.g. 보험)
완비모임정리 (Complete class theorem)
통계모형 ( X , Y , ( P θ ) θ ∈ Θ ) (\mathcal{X},\mathcal{Y},(\mathbf{P}_\theta)_{\theta \in\Theta}) ( X , Y , ( P θ ) θ ∈ Θ ) 이 다음을 만족.
(a) 확률의 정규성 (regularity)
P : Y × Θ → [ 0 , 1 ] \mathbf{P}:\mathcal{Y}\times\Theta \rightarrow [0,1] P : Y × Θ → [ 0 , 1 ] 은 확률적 커널이다.
i.e., (i) 모든 A ∈ Y A \in \mathcal{Y} A ∈ Y (A 고정) 에 대해, θ ⟼ P θ ( A ) \theta \longmapsto \mathbf{P}_\theta(A) θ ⟼ P θ ( A ) 는 보렐 측도 가능 (최소 거리 공간의 의미).
\quad\ \; (ii) 모든 θ ∈ Θ \theta \in \Theta θ ∈ Θ (θ \theta θ 고정) 에 대해, P θ \mathbf{P}_\theta P θ 는 Y \mathcal{Y} Y 상의 확률 측도.
(b) 모형의 연속성
모수공간 Θ \Theta Θ 는 거리공간이고, θ ⟼ P θ \theta \longmapsto \mathbf{P}_\theta θ ⟼ P θ 는 L 1 − n o r m L_1-norm L 1 − n o r m 에 연속.
∥ P θ 1 − P θ 2 ∥ L 1 = ∫ ∣ f θ 1 ( x ) − f θ 2 ( x ) ∣ d μ ( x ) \|\mathbf{P}_{\theta_1}-\mathbf{P}_{\theta_2}\|_{L_1}=\int|f_{\theta_1}(x)-f_{\theta_2}(x)|d\mu(x) ∥ P θ 1 − P θ 2 ∥ L 1 = ∫ ∣ f θ 1 ( x ) − f θ 2 ( x ) ∣ d μ ( x )
A : \mathcal{A}: A : 행동공간, P ( A ) : A \quad \mathcal{P}(\mathcal{A}):\mathcal{A} P ( A ) : A 상의 확률측도들의 모임. 랜덤화된 행동공간.
완비모임정리
모수공간 Θ : \Theta: Θ : 분리가능한(separable) 거리공간.
A : \mathcal{A}: A : 긴밀한(compact) 거리공간.
손실함수 L ( θ , a ) L(\theta,a) L ( θ , a ) 는 유계(bounded)이고, ( θ , a ) (\theta,a) ( θ , a ) 에 관해 연속.
⇒ \Rightarrow ⇒ 모든 δ ∈ P ( A ) \delta\in\mathcal{P}(A) δ ∈ P ( A ) 에 대해 (randomized),
\quad δ k ⇝ δ 0 \delta_k\rightsquigarrow\delta_0 δ k ⇝ δ 0 (분포수렴 느낌)
\quad 이고 R ( θ , δ 0 ) ≤ R ( θ , δ ) , ∀ θ ∈ Θ R(\theta,\delta_0)\leq R(\theta,\delta),\quad \forall\theta\in\Theta R ( θ , δ 0 ) ≤ R ( θ , δ ) , ∀ θ ∈ Θ
\quad 를 만족하는 δ 0 ∈ P ( A ) \delta_0\in\mathcal{P}(A) δ 0 ∈ P ( A ) 와 사전분포의 열 π k \pi_k π k 가 존재한다.
δ k \quad\delta_k δ k 는 사전분포 π k \pi_k π k 에 대한 베이즈 규칙이다.
cf) 완비모임정리는 모든 결정규칙 δ \delta δ 에 대해, δ \delta δ 보다 성능이 좋은 베이즈 규칙의 극한이 존재한다는 뜻이다.