본 포스팅은 서울대학교 통계학과 이재용 교수님의 수업 내용과, Mathematical Statistics, Basic Ideas and Selected Topics Volume I에 기반한 내용입니다.
1.1 Data, Models, Parameters, and Statistics
Terminologies(1)
- (Ω,F,P): 확률 공간 (Probability Space).
- Ω: 집합, 표본공간.
- F: Ω 상에 정의된 σ−field.
- P: F 상에 정의된 확률 측도.
- 자료 (or 관측치): X=(X1,…,Xn), Ω→Rn 인 random vector.
- 측도 가능한 함수 (X−1(B)∈F, ∀B=Bn=Rn) 상의 Borel σ−field.
- 모형: P=X의 분포들의 모임.
- 모수함수: Θ→P 함수.
Example. 일표본 모형
Xi=μ+ϵi,ϵi∼iidF,i=1,…,n,μ∈R,F:R 상의 분포
자료: X=(X1,…,Xn)
모형: P={Φn(⋅−μ):μ∈R},Φ:N(0,1)의 cdf.
(i) P={Φ(⋅−μ):μ∈R}: μ 모수, Θ=R.
→μ결정 시, X1 분포 결정. 그래서 μ를 X1분포의 이름이라 생각할 수 있다.
(ii) P={Φ(σ⋅−μ):μ∈R,σ>0}: (μ,σ) 모수, Θ=R×R+
(iii) P={F(⋅−μ):μ∈R}: (μ,F)모수,
Θ=R×{R에 정의된 0에 대칭인 분포}
F:R에 정의된 0에 대칭인 분포
Terminologies(2)
- Θ가 유클리드공간 Rn의 부분집합일 때의 모형을 모수적(parametric)이라고 한다.
- Θ가 무한차원공간일 때, P를 비모수적(nonparametric)이라고 한다.
(ex) Θ={R상의 모든 분포들의 모임} or {R상의 밀도 함수들의 모임}
- Θ를 유클리드 공간과 무한차원공간으로 표현할 수 있을 때, P를 준모수적(semiparametric) 모형이라 한다.
(ex) {F(⋅−μ): μ∈R,F:R에 정의된 0에 대칭인 분포}
→ 다만 semiparametric의 경우, 엄격하게 정의되지는 않음.
- 식별가능(identifiable): 모수함수와 모수가 1-1 대응.
i.e. θ1=θ2⇒P(θ1)=P(θ2)
- 관심모수(parameter of interest): 모수 중에서 1차적 관심의 대상.
- 잠재모수(nuisance parameter): 모수 중에서 2차적 관심의 대상.
Example. 이표본 모형
X1,…,Xn∼iidF,Y1,…,Yn∼iidF(⋅−Δ),Δ∈R에서 일차적으로 Δ에 관심이 있기에 Δ가 관심모수, F가 장애모수.
Terminologies(3)
- 통계량: 표본공간에서 정의된 함수. 보통 치역은 유클리드 공간.
(ex) T(x)=nx,T(x1,…,xn)=n1Σxi,Fn(t)=n1Σi=1nI(Xi≤t): 경험적 분포
Example. 회귀모형
- 자료: (Zi,Yi),i=1,….nYi=R(회귀모형) or {0,1}(분류모형).
Zi들은 확률변수 or 상수, Zi∈Rk
- 목적: 조건부 분포 f(y∣z)에 대한 추론.
- (모형 1) yi∣zi∼f(y∣z),i=1,…,n.
P={y∈R,z∈Rk일 때, 조건부 밀도함수 f(y∣z)}
- (모형 2) yi=μ(zi)+ϵi,i=1,…,n,ϵ∼iidF
μ:Rk→R 함수.