- 이에 따라오는 성질들
- 조건
- $A,B \in \mathcal{B}$ 이다
- 정리
1. $P(A)=1-P(A^c)$ 이다
2. $P(\emptyset)=0$ 이다
3. $A\subseteq B$ 이면 $P(A) \le P(B)$ 이다
4. $0\le P(A) \le 1$ 이다
5. $P(A\cup B)= P(A)+P(B)-P(A\cap B)$
- 증명
1. $\mathcal{C}= A\cup A^c$ 이고 $A \cap A^c =\emptyset$ 이므로 $1=P(A)+P(A^c)$
2. $\mathcal{C} \cap \emptyset=\mathcal{C}$ , $\mathcal{C} \cap \emptyset =\emptyset$ 이므로 $1=P(\mathcal{C})+P(\emptyset)$
3. $B=(B\cap A) \cup (B \cap A^c)$, $B \cap A= A$, $P(B \cap A^c) \ge 0$ 이므로
- $P(B)=P(A)+P(B \cap A^c) \ge P(A)$
4. 임의의 사건 $A \in \mathcal{B}$는 $\emptyset \le A \le \mathcal{C}$ 이므로
- $P(\emptyset) \le P(A) \le P( \mathcal{C}) \,\,\,, 0 \le P(A) \le 1$
5. $A\cup B =A \cup (A^c \cap B)$
- $B=(A\cap B) \cup (A^c \cap B)$ 이므로 $P(B)=P(A \cap B)+P(A^c\cap B)$
- $P(A \cup B)=P(A)+P(A^c \cap B) =P(A)+P(B)-P(A\cap B)$
Joint Proabability distribution function
marginal distribution
- 표준오차 Standard Error
- 표본 통계량의 표준 편차
- 통계량 추정치에 대한 불확실정도를 정량화한 것이다
파라메트릭/ 논파라메트릭
- 파라메트릭 모델: 가능한 현상을 단순화 하여 소수의 파라미터만 사용하는 모델
- 함수 형태에 대해 가정한다.
- 가장 단순한 형태의 가정은 함수 가 선형이란 것으로 다음과 같다
-
- 를 활용하여 모델을 학습시킨다.
- 선형모델의 경우 파라미터 의 추정을 한다
- 가장 일반적인 방법은 최소제곱법 이다
- 장점과 단점
- 함수의 종잡을수 형태를 추정하는 문제를 파라미터 를 추정하는 문제로 난이도를 낮춘다
- 대신 이 가정한 함수의 형태가 진짜 함수 와 다를수록 추정결과는 나쁠 수 밖에 없다
- ⇒ 이러한 문제를 극복하기 위해 좀 더 다양한 유연한 형태의 모델 을 가정한다
- ⇒ 한편 유연한 형태의 모델을 만들기 위해선 더 많은 수의 파라미터를 요구한다. 파라미터가 많은 모델은 이라 불리는 문제현상을 야기할 수 있다
- 논파라메트릭 모델: 소수의 파라미터를 사용한다는 방침을 취하지 않는 모델/ 복잡한 모델이 되기 쉬워 추정과 해석이 어려워질 수 있다
- 함수 형태에 대해 어떤 가정도 하지 않는다
- 대신 함수가 데이터포인트와 최대한 근접해 있으며, 지나치게 구불구불하거나 거칠지 않다고 가정한다
- 장점과 단점
- 좀 더 다양한 함수의 형태를 추정하는 데 좋은 방식이다
- 적은 수의 파라미터로 추정하는 것이 아니기에 큰 수의 관측값 데이터가 필요하다
선형회귀모델linear regression model
- 로 정의된 수학적 모델
- ( 는 각각 번째 데이터의 번째 성분의 값, 번째 계수를 의미한다.)
- 종속변수에 대하여 계수는 선형변환 linear transformation의 관계를, 독립변수는 아핀 변환 affine transformation의 관계를 갖는다
- 독립변수 를 1개 사용한 식을 단순회귀분석식 simple regression / 독립변수 를 2개 이상 사용한 식을 다중회귀분석식 multiple regression이라 한다
정규선형모델
- 종속변수가 정규분포를 따르는 것을 가정한 선형모델
-
- 모집단분포를 정규분포로 가정하는 것이 올바른가를 평가하는 것과 파라미터의 값을 추정하는 두 단계로 나뉜다
- 분산분석: 독립변수가 카테고리형 변수인 정규선형모델
- 독립변수가 1종류면 일원분산분석 / 독립변수가 2종류면 이원분산분석이라 한다
일반선형모델 GLM: Generalized Linear Model
- 종속변수가 정규분포 이외의 다른 분포까지 가능하다 전제하는 일반적인 선형모델