[Theory of Statistics] 1. Statistical Models, Goals, and Performance Criteria

­woongineer·2024년 3월 9일
0

통계이론1

목록 보기
1/3

본 포스팅은 서울대학교 통계학과 이재용 교수님의 수업 내용과, Mathematical Statistics, Basic Ideas and Selected Topics Volume I에 기반한 내용입니다.

1.1 Data, Models, Parameters, and Statistics

Terminologies(1)

  • (Ω,F,P)(\Omega, \mathcal{F}, \mathbf{P}): 확률 공간 (Probability Space).
    - Ω\Omega: 집합, 표본공간.
    - F\mathcal{F}:  Ω\ \Omega 상에 정의된 σfield\sigma-field.
    - P\mathbf{P}:  F\ \mathcal{F} 상에 정의된 확률 측도.
  • 자료 (or 관측치): X=(X1,,Xn), ΩRn\mathbf{X}=(X_1, \ldots, X_n),\ \Omega \rightarrow \mathbf{R}^n 인 random vector.
    - 측도 가능한 함수 (X1(B)F, B=Bn=Rn)(\mathbf{X}^{-1}(B)\in \mathcal{F}, \ \forall{B}=\mathcal{B}^n=\mathbf{R}^n) 상의 Borel σfield\sigma-field.
  • 모형:  P=X\ \mathcal{P}=\mathbf{X}의 분포들의 모임.
  • 모수함수:  ΘP\ \Theta \rightarrow \mathcal{P} 함수.

Example. 일표본 모형
Xi=μ+ϵi,  ϵiiidF,  i=1,,n,μR,F:RX_i=\mu+\epsilon_i,\; \epsilon_i \stackrel{\text{iid}}{\sim} F,\; i=1,\ldots,n, \quad \mu \in \mathbf{R}, \quad F:\mathbf{R} 상의 분포
자료:  X=(X1,,Xn)\ \mathbf{X}=(X_1, \ldots, X_n)
모형:  P={Φn(μ):  μR},  Φ:N(0,1)\ \mathcal{P}=\{\Phi^n(\cdot-\mu):\; \mu \in \mathbf{R}\}, \; \Phi: N(0,1)의 cdf.
(i)  P={Φ(μ):  μR}\ \mathcal{P}=\{\Phi(\cdot-\mu):\; \mu \in \mathbf{R}\}:  μ\ \mu 모수, Θ=R\Theta=\mathbf{R}.
μ\quad \rightarrow \mu결정 시, X1X_1 분포 결정. 그래서 μ\muX1X_1분포의 이름이라 생각할 수 있다.
(ii)  P={Φ(μσ):  μR,  σ>0}\ \mathcal{P}=\{\Phi(\frac{\cdot-\mu}{\sigma}):\; \mu \in \mathbf{R}, \; \sigma>0\}:  (μ,σ)\ (\mu, \sigma) 모수, Θ=R×R+\Theta=\mathbf{R}\times \mathbf{R}_{+}
(iii)  P={F(μ):  μR}\ \mathcal{P}=\{F(\cdot-\mu):\; \mu \in \mathbf{R}\}: (μ,F)(\mu, F)모수,
\quadΘ=R×{\Theta=R\times\{RR에 정의된 0에 대칭인 분포}\}
\quadF:RF: R에 정의된 0에 대칭인 분포


Terminologies(2)

  • Θ\Theta가 유클리드공간 Rn\mathbf{R}^n의 부분집합일 때의 모형을 모수적(parametric)이라고 한다.
  • Θ\Theta가 무한차원공간일 때, P\mathcal{P}비모수적(nonparametric)이라고 한다.
    (ex) Θ=\Theta={R\mathbf{R}상의 모든 분포들의 모임} or {R\mathbf{R}상의 밀도 함수들의 모임}
  • Θ\Theta를 유클리드 공간과 무한차원공간으로 표현할 수 있을 때, P\mathcal{P}준모수적(semiparametric) 모형이라 한다.
    (ex) {F(μ): μR,  F:R\{F(\cdot - \mu):\ \mu \in R,\; F:\mathbf{R}에 정의된 0에 대칭인 분포}\}
    \rightarrow 다만 semiparametric의 경우, 엄격하게 정의되지는 않음.
  • 식별가능(identifiable): 모수함수와 모수가 1-1 대응.
    i.e.   θ1θ2    P(θ1)P(θ2)\; \theta_1 \ne \theta_2\; \Rightarrow\; \mathcal{P}(\theta_1)\ne \mathcal{P}(\theta_2)
  • 관심모수(parameter of interest): 모수 중에서 1차적 관심의 대상.
  • 잠재모수(nuisance parameter): 모수 중에서 2차적 관심의 대상.

Example. 이표본 모형
X1,,XniidF,Y1,,YniidF(Δ),ΔRX_1,\ldots, X_n \stackrel{\text{iid}}{\sim}F,\quad Y_1,\ldots, Y_n \stackrel{\text{iid}}{\sim}F(\cdot-\Delta), \quad \Delta \in \mathbf{R}에서 일차적으로 Δ\Delta에 관심이 있기에 Δ\Delta가 관심모수, FF가 장애모수.


Terminologies(3)

  • 통계량: 표본공간에서 정의된 함수. 보통 치역은 유클리드 공간.
    (ex) T(x)=xn,T(x1,,xn)=1nΣxi,Fn(t)=1nΣi=1nI(Xit)T(x)=\frac{x}{n},\quad T(x_1,\ldots,x_n)=\frac{1}{n}\Sigma x_i,\quad F_n(t)=\frac{1}{n}\Sigma_{i=1}^nI(X_i\leq t): 경험적 분포

Example. 회귀모형

  • 자료: (Zi,Yi),i=1,.nYi=R(Z_i, Y_i),\quad i=1,\ldots. n \quad Y_i=\mathbf{R}(회귀모형) or {0,1}\{0,1\}(분류모형).
    ZiZ_i들은 확률변수 or 상수, ZiRkZ_i \in \mathbf{R}^k
  • 목적: 조건부 분포 f(yz)f(y|z)에 대한 추론.
  • (모형 1) yizif(yz),i=1,,n\quad y_i|z_i \sim f(y|z), \quad i=1,\ldots,n.
    P={yR,zRk\mathcal{P}=\{y \in \mathbf{R}, z\in\mathbf{R}^k일 때, 조건부 밀도함수 f(yz)}\ f(y|z)\}
  • (모형 2) yi=μ(zi)+ϵi,i=1,,n,ϵiidF\quad y_i=\mu(z_i)+\epsilon_i,\quad i=1,\ldots,n, \quad \epsilon \stackrel{\text{iid}}{\sim}F
    μ:RkR\mu: \mathbf{R}^k \rightarrow \mathbf{R} 함수.
Q.E.D.Q.E.D.
profile
통린이 대학원생

0개의 댓글