수리통계학- 1.확률 이론

milkbuttercheese·2023년 3월 21일

수리통계학

목록 보기

1/6

1. 통계학의 목적

통계학이란?
- 데이터를 잘 사용하는 방법을 알아내는 학문
통계학의 분류
- 기술통계학 Descriptive Statistics: 데이터셋 전체의 특성을 정리 요약하기 위해 사용되는 통계학
- 추측통계학 Inferential Statistics
- 가지고 있지 않는 미지의 데이터unknown data를 추측할 목적으로 사용되는 통계학
- 표본이란 일부 데이터를 활용하여, 모집단이란 전체 데이터를 추측한다

2. 통계학의 기본 용어

집합

모집단 Population
- 정보를 얻고자 하는 관심 대상의 데이터셋
표본 Sample $\mathcal{C}$
- 현재 보유하고 있는 데이터셋으로 모집단의 부분집합
- 샘플사이즈 Sample Size: 표본이 갖고 있는 데이터의 수
사건 event
- 표본공간의 부분집합
공간 $space \,\, \mathcal{D}$
- $\mathcal{D}=\{x:x =X(c), c\in \mathcal{C}\}$
- $\mathcal{C}$ 는 표본공간
받침 $support$ $S$
- $supp \,P=\{x\in\mathcal{D} : p_X(x) >0\}$
- $S \subseteq \mathcal{D}$ 의 관계를 갖는다

랜덤 표본

랜덤표본
- 조건
- 확률변수 $X _{1},X _{2},\cdots,X _{n}$ 이 있다 하자
- $f _{X _{1},X _{2},\cdots,X _{n}}(x _{1},x _{2},\cdots,x _{n})=f(x _{1})f(x _{2})\cdots f(x _{n})$ 이라고 하자
- 정의
- $X _{1},X _{2},\cdots,X _{n}$ 을 모확률밀도가 $f(\cdot )$ 이고, 크기가 $n$ 인 랜덤표본/임의표본 이라고 부른다
- $X _{1},X _{2},\cdots,X _{n}$ 이 iid(independent and identically distributed)라고 칭한다

방법들

샘플링 Sampling
- 모집단에서 표본을 얻는 과정
전수조사 Census
- 모집단 전체를 조사하는 방법
표본조사 Sample Survey
- 모집단의 일부만 조사하는 것
시행 trial
- 1회의 조사를 수행하는 것
- 일반적으로 하나의 표본평균을 측정하는 것을 1회 시행하였다고 한다

변수

확률변수 Random Variable
- 표본공간의 원소를 실수에 대응시킨 값
- 실험결과의 정량적 수치
- 변수의 종류
- 수치형 변수: 정량적인 값으로 표현할 수 있는 데이터
- 이산형 변수: 1마리,2마리와 같이 정수값만 가질 수 있는 데이터
- 연속형 변수: 2.3cm, 4.5kg과 같이 실수값을 가질 수 있는 데이터
- 수치형 변수는 때떄로 값을 몇개의 범위로 분할하여 지정할 수 있고, 이를 계급 class라 한다
- 카테고리형 변수: 정량적인 수치로 표현할 수 없는 데이터
확률분포 Probability Distribution
- 확률변수와 그 값이 나올 확률을 대응시킨 함수
- 이때 모집단이 따르는 확률분포를 모집단분포 Population Distribution이 되는데, 추론통계학에서 주로 알아내고자 하는 대상이 된다

확률분포의 수학적 공리

확률집합함수 $Probability \,\,Set \,\,Function$
- 조건
- $\mathcal{C}$ : 표본공간
- $\mathcal{B}$ : 사건의 집합
- $P$ : $\mathcal{B}$ 상의 정의된 실함수
- 정의: 다음의 세 조건을 만족시키면 $P$ 를 확률집합함수라고 부른다
1. 모든 $A\in \mathcal{B}$ 에 대해 $P(A) \ge 0$
2. $P(\mathcal{C})=1$
3. 만약 $\{A_n \}$ 이 $\mathcal{B}$ 의 사건열이고 모든 $m \ne n$ 에 대해 $A_m \cap A_n = \emptyset$ 이면 $P(\cup_{n=1}^{\infty}A_n)=\sum_{n=1}^{\infty}P(A_n)$ 이다
- $ref.$ 모든 $m \ne n$ 에 대해 $A_m \cap A_n = \emptyset$ 이면 서로 배타적 $mutually\,\,exclusively$ 이라고 하며 이 모임의 합집합은 배반인 합집합 $disjoint\,\,unioin$ 으로 공통의 원소가 존재하지 않는다
```
	- 이에 따라오는 성질들
		- 조건
			- $A,B \in \mathcal{B}$ 이다
		- 정리
			1. $P(A)=1-P(A^c)$ 이다
			2. $P(\emptyset)=0$ 이다
			3. $A\subseteq B$ 이면 $P(A) \le P(B)$ 이다
			4. $0\le P(A) \le 1$ 이다
			5. $P(A\cup B)= P(A)+P(B)-P(A\cap B)$
		- 증명
			1. $\mathcal{C}= A\cup A^c$ 이고 $A \cap A^c =\emptyset$ 이므로 $1=P(A)+P(A^c)$
			2. $\mathcal{C} \cap \emptyset=\mathcal{C}$ ,  $\mathcal{C} \cap \emptyset =\emptyset$ 이므로 $1=P(\mathcal{C})+P(\emptyset)$
			3. $B=(B\cap A) \cup (B \cap A^c)$, $B \cap A= A$, $P(B \cap A^c) \ge 0$ 이므로
				- $P(B)=P(A)+P(B \cap A^c) \ge P(A)$
			4. 임의의 사건 $A \in \mathcal{B}$는 $\emptyset \le A \le \mathcal{C}$ 이므로
				- $P(\emptyset) \le P(A) \le P( \mathcal{C})  \,\,\,, 0 \le P(A) \le 1$
			5. $A\cup B =A \cup (A^c \cap B)$
				- $B=(A\cap B) \cup (A^c \cap B)$ 이므로 $P(B)=P(A \cap B)+P(A^c\cap B)$
				- $P(A \cup B)=P(A)+P(A^c \cap B) =P(A)+P(B)-P(A\cap B)$
```
확률질량함수 $Probability \,\,Mass\,\,Function$
- 이산형 확률변수와 그 값이 나올 확률을 대응시킨 함수
- 조건
- 공간 $\mathcal{D}$ 를 가진 이산형 확률변수 $X$ 가 있다 하자
- 정의
- $x\in \mathcal{D}$ 에 대해 $p_X(x)=P[X=x]$
- 이에 따라오는 성질
- $0 \le p_X(x) \le 1, x \in \mathcal{D}$
- $\sum_{x\in \mathcal{D}}p_X(x)=1$
확률밀도함수 $Probability \,\,Density \,\,Function$
- 연속형 확률변수와 그 값이 나올 확률을 대응시킨 함수
- 조건
- 공간 $\mathcal{D}= \mathbb{R}$ 을 가진 연속형 확률변수 $X$ 가 있다하자
- (연속형 확률변수란 확률변수 $X$ 의 누적분포함수 $F_X(x)$ 가 모든 $x\in \mathbb{R}$ 에 대해 연속함수인 경우를 지칭한다)
- 정의
- $f(x)= \displaystyle\frac{d}{dx}F_X(x)=\displaystyle\frac{d}{dx} \displaystyle\int_{-\infty}^{x} f_X(t)dt$ 를 만족하는
- $f(x)$ 를 확률밀도함수라고 정의한다
- 이에 따라오는 성질
- $f_X(x) \ge 0$
- $\displaystyle\int_{-\infty}^{\infty} f_X(t)dt=1$

조건부 확률

조건
- 표본공간 $\mathcal{C}$ 가 있고, 사건 $A,B \in \mathcal{C}$ 이 있다 하자
정리
- 사건 $B$ 가 일어났을 때 사건 $A$ 가 일어날 확률은
- $P(A|B)=\displaystyle\frac{P(A \cap B)}{P(B)}$
전확률 공식
- 조건
- $B _{1},B _{2},\cdots,B _{k}$ 는 상호 배반이고 $\cup _{i=1} ^{n}B _{i}=\mathcal{C}$ 라고 하자. 임의의 사건 $A \in \mathcal{C}$ 이 있다하자
- 정리
- $P(A)=\displaystyle\sum\limits_{i=1}^{k}{P(B _{i})P(A|B _{i})}$
베이즈 정리
- 조건
- $B _{1},B _{2},\cdots,B _{k}$ 는 상호 배반이고 $\cup _{i=1} ^{n}B _{i}=\mathcal{C}$ 라고 하자. 임의의 사건 $A \in \mathcal{C}$ 이 있다하자.
- 정리
- $P(B _{j}|A)=\displaystyle\frac{P(B _{j})P(A|B _{j})}{\displaystyle\sum\limits_{i=1}^{k}{P(B _{i})P(A|B _{i})}}$
- 해석
- 사건 $A$ 가 일어난 후 사건 $B _{j}$ 이 일어날 확률을 구하는데에는, 사건 $B _{i}$ 들이 일어날 확률과, 사건 $B _{i}$ 가 일어나고 $A$ 가 일어날 확률을 알면 계산할 수 있다

결합 확률분포

Joint Proabability distribution function

조건
- 확률변수 $X _{1},X _{2},\cdots, X _{k}$ 가 있다하자
정의
- $F(x _{1},x _{2},\cdots,x _{k})=P(X _{1}\le x _{1},X _{2}\le x _{2},\cdots, X _{k}\le x _{k})$
성질
- $f(x _{1},x _{2},\cdots,x _{n})=\cfrac{\partial ^{k}{}}{\partial {x _{1}}\partial_{\displaystyle{}}x _{2}\cdots \partial_{\displaystyle{}}x _{k}}F(x _{1},x _{2},\cdots,x _{k})$ 이다( $f$ 는 결합확률밀도 joint probability density function 이라 불린다)

주변 확률분포

marginal distribution

특정 독립변수에 대해 적분하여, 그 변수의 의존성이 없는 분포 형태
조건
- 확률변수 $X _{1},X _{2},\cdots, X _{k}$ 가 있다하자
정의
- $f _{X _{i}}(x _{i})=\displaystyle\int_{}^{}{\cdots \displaystyle\int_{}^{}{f(x _{1},x _{2},\cdots,x _{k})}}dx _{1}dx _{2}\cdots dx _{i-1}dx _{i+1}\cdots dx _{k}$

조건부 확률 분포

조건
- 확률변수 $X _{1},X _{2},\cdots, X _{k}$ 가 있다하자
정의
- $f(x _{i+1},x _{i+2},\cdots,x _{k}|x _{1},x _{2},\cdots,x _{i})=\displaystyle\frac{f(x _{1},x _{2},\cdots,x _{k})}{f(x _{1},x _{2},\cdots,x _{i})}$

통계량 Statistic

미지의 모수를 포함하지 않는 랜덤표본의 함수. 임의표본을 대표하는 값이다

기댓값과 평균값

평균값 Mean
- $\mu=\displaystyle\frac{1}{N}\displaystyle\sum_{i=1}^{N}{x_i}$ , 이때 $N$ 는 샘플 데이터셋의 크기
- 확률이란 개념이 포함되지 않은 상태에서 정의된다
기대값 Expectation Value
- $\mu=\displaystyle\sum_{i=1}^{N}{P(x_{i})\cdot x_i}$
- 어떤 확률과정을 무한히 반복하였을 때, 얻을수 있는 평균으로 기대되는 값
확장된 기대값 정의
- $\mathbb{E}[g(X)]=\displaystyle\int_{}^{}{g(x)p(x)dx}$
기댓값의 성질
- $\mathbb{E}[aX+b]=a \mathbb{E}[X]+b$
- $\mathbb{E}[XY]=\mathbb{E}[X]\mathbb{E}[Y]$ ( $X,Y$ 가 서로 독립이라면)
- $\mathbb{E}[g(X)h(Y)]=\mathbb{E}[g(X)]\mathbb{E}[h(Y)]$ ( $X,Y$ 가 서로 독립이라면)

분산 Variance

데이터들이 평균으로부터 얼마나 떨어져있는가를 측정하는 척도
분산의 종류
모분산 Population Variance
- $\sigma^2=\displaystyle\frac{1}{N}\displaystyle\sum_{i=1}^{N}{(x_i-\mu)^2}$
- $\sigma^2=\displaystyle\sum_{i=1}^{N}P(x_i){(x_i-\mu)^2}=\mathbb{E}[(X-\mathbb{E}(X)) ^{2}]$
- 전체 데이터가 모평균으로 부터 얼마나 벗어나있는지를 측정하는 척도
표본분산 Sample Variance
- $s^2=\displaystyle\frac{1}{N-1}\displaystyle\sum_{i=1}^{N}{(x_{i}-E(x_{i}))^2}$
- 표본 데이터가 기대값으로부터 얼마나 벗어나있는지 측정하는 척도
- 표본분산의 기댓값이 모분산과 같게 하기 위하여 샘플의 크기 $N$ 대신 $N-1$ 로 나누는 특징을 갖는다
공분산 Covariance
- $Cov(x,y)=\displaystyle\frac{1}{N}\displaystyle\sum_{i=1}^{N}{(x_{i}-\mu_{x})(y_{i}-\mu_y)}$
- $Cov(x,y)=\mathbb{E}[(x-E(x))(y-E(y))]$
- $=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]$
- 2개 이상의 연속확률변수의 선형적 관계를 측정하는 척도이다
표본 공분산 Sample Covaraince
- $S_{xy}^{2}=\displaystyle\frac{1}{N-1}\displaystyle\sum_{i=1}^{N}{(x_{i}-\mu_{x})(y_{i}-\mu_{y})}$
분산- 공분산 행렬 Variance-Covariance Matrix
- $Cov(x,y)=\begin{bmatrix} \sigma_{x}^2 & Cov(x,y) \\ Cov(x,y) & \sigma_{y}^2 \end{bmatrix}$
피어슨 상관계수 Pearson Correlation Coefficient
- $\rho_{xy}=\displaystyle\frac{Cov(x,y)}{\sqrt{\sigma_{x}^{2}\sigma_{y}^{2}}}$
- 공분산의 최대값을 1, 최솟값이 -1이 되도록 표준화 시킨 값
표본 피어슨 상관계수 Sample PCC
- $r_{xy}=\displaystyle\frac{\displaystyle\frac{\displaystyle\sum_{i=1}^{N}{(x_{i}-E(x))(y_i-E(y))}}{N-1}}{\sqrt{\displaystyle\frac{\displaystyle\sum_{i=1}^{N}{(x_i-E(x))^2}}{N-1}}\sqrt{\displaystyle\frac{\displaystyle\sum_{i=1}^{N}{(y_{i}-E(y))^2}}{N-1}}}=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{(x_{i}-E(x))(y_{i}-E(y))}}{\sqrt{\displaystyle\sum_{i=1}^{N}{(x_i-E(x))^2}}\sqrt{\displaystyle\sum_{i=1}^{N}({y_{i}-E(y))^2}}}$
- 계산하면 알수 있지만 $N$ 이나 $N-1$ 이나 $r_{xy}$ 의 계산값이 동일하므로, 피어슨 상관계수와 표본 피어슨 상관계수의 값은 동일하다.
```
	- 표준오차 Standard Error
		- 표본 통계량의 표준 편차
		- 통계량 추정치에 대한 불확실정도를 정량화한 것이다
```
분산의 성질
- $Var(aX+b)=a ^{2}Var(X)+b$
- $Cov(aX+b,cX+d)=ac \cdot Cov(X,Y)$
이중 기댓값 정리
- $\mathbb{E}[\mathbb{E}(Y|X)]=\mathbb{E}[Y]$

모수 Population Parameter

모집단을 분석하여 측정할 수 있는 모집단의 특성값들
주로 확률분포를 결정하는 parameter로서 활용된다

추측 통계학의 3가지 추측

추정 $estimation$
- 표본데이터를 활용 및 분석하여 모수를 추론해내는 것
- 점추정
- 모수의 값에 가깝다 예상되는 하나의 값을 추정하는 것
- 구간추정
- 모수를 포함할 구간과 그 구간에 있을 확률을 추정하는 것
예측 $predict$
- 모델을 사용하여 새 데이터 포인트에 대한 결과를 예측하는 것
- 예측 과정
- 모델링: 여러 모델과 파라미터들을 고려한다
- 모델 선택: 그중 최고의 퍼포먼스를 보이는 모델을 선택한다
- 예측: 선택한 최적한 모델에 데이터를 사용하여 원하는 정보를 예측한다
추론 $inference$
- 독립변수가 종속변수에 어떻게 영향을 미쳤는지 탐구하고 모델을 개선하는 것

추측 통계학에서의 3가지 차이

편차 $deviation$
- 모집단 평균과 관측치 사이의 차이
잔차 $residual$
- 표본의 회귀식으로 추정한 값과 관측값 사이 차이
- $y_{i}-\hat{y_{i}}$
- 이때 잔차제곱합 Residual Sum of Square를 다음과 같이 계산한다
- $RSS= \displaystyle\sum_{i=1}^{n}{(y_{i}-\hat{y_{i}})^2}$
오차 $error$
- 모집단의 회귀식으로 추정한 값과 관측값 사이 차이(실수를 하지 않은 관측)
- 표준오차
- 모수 예측값과 표본평균(추정된 통계량) 사이의 차이
- 표본평균의 표준편차

자유도

통계학에서 자유도란 계산의 자유도로 '서로 독립적인 정보의 수'를 의미한다
예
- 표본분산의 자유도는 표본의 갯수 $n$ -1인가?
- 표본 $x_1,x_2,x_3$ 가 있다 하자. 그리고 표본평균 $\bar{x}=\displaystyle\frac{x_1+x_2+x_3}{3}$ 이라하자
- $s^2=\displaystyle\frac{(\bar{x}-x_1)^2+(\bar{x}-x_2)^2+(\bar{x}-x_3)^2}{2}$
- 이 식에서 $x_1,x_2,x_3$ 라는 3개의 변수가 있었다. 이때 평균 $\bar{x}$ 의 값이 주어진다음에 $x_1,x_2$ 의 값을 정한다고 하자. 그러면 $x_3$ 는 자동으로 값이 정해지기 때문에 기존의 자유도에서 1이 줄어든다고 설명할 수 있다

통계학의 주요 정리

중심극한정리 Central Limit Theorem

표본의 크기 $N$ 이 커지면 커질수록, 표본 평균의 분포는 모집단의 분포모양에 관계없이 정규분포에 가까워진다는 정리이다
이때 표본 평균의 기댓값은 모평균과 같고, 표본평균의 표준편차는 모표준편차에서 표본크기 $N$ 의 제곱근으로 나눈값과 같다
조건
- 독립항등분포 $i.i.d$ 를 따르는 확률변수 $x_1,x_2,...,x_n$ 이 있다하자
- (독립항등분포 independent and identically distributed: 확률변수 $X_1,X_2,...,X_n$ 들이 모두 서로 상호독립적이며, 동일한 확률분포에서 추출되었을 것이라는 가정 )
- 각각의 변수들은 평균과 표준편차가 각각 $\mu,\sigma$ 인 모수 분포로부터 추출되었다고 하자
결론
- $Z=\lim_{n\to \infty}{\displaystyle\frac{\bar{X_n}-\mu}{\sigma_{\bar{X}}}}$ ( $\bar{X}=\displaystyle\frac{1}{n}\displaystyle\sum_{i=1}^{n}{X_i}$ , $\sigma_{\bar{X}}=\displaystyle\frac{\sigma}{\sqrt{n}}$ )은 표준정규분포를 향해간다
- 표본평균의 표준편차 $\sigma_{\bar{X}}$ 는 표준오차 $SE$ 라고도 불린다

큰수의 법칙 Law of Large Numbers

표본의 크기 $N$ 이 커질수록 표본 평균의 값이 모평균에 가까워질 가능성이 높다는 정리이다
$\lim{n\to \infty}\,\,P(|\bar{X}_{n}-\mu|< \epsilon)=1$

통계모델

모델의 정의
기초분포모델

모델이란?

수학적 모델/ 수리모델 Mathematical Model
- 수학적 개념과 언어를 활용하여 서술된 시스템(일정한 규칙에 따라 상호작용하는 요소들의 집합)이다
- 수학적 모델의 분류 기준
- 선형인가 비선형인가?
  - 수학적 선형성 linearlity 를 따르는가로 구분
- 정적인가 동적인가?
  - 시스템의 상태가 시간에 따라 변화하는지 안하는지로 구분
- 명시적인가 암묵적인가?
  - 모델의 모든 입력 파라미터가 알려져있고, 출력 파라미터가 유한번의 계산을 통해 구해질 수 있는가? 없는가?
- 연속적인가 비연속적인가?
- 결정론적인가 확률론적인가?
  - 상태 변수가 이전 상태 변수에 의해 고유하게 결정되는가 아닌가?
  - 만일 전자라면 초기조건이 동일하다면 그 후 과정은 항상 동일한 결과를 갖는다
- 연역적인가 귀납적인가?
  - 귀납적 모델: 경험적 사실로부터 일반화된 법칙을 존재함을 주장하는 것
  - 연역적 모델: 주어진 사실을 논리적으로 전개하여 새로운 사실을 발견하는 것
확률 모델
- 관측되는 데이터에 대응되는 발생확률을 수학모델로 제작한 것이다
- $y=f(\mathbb{X})+\epsilon$ 으로 표현될 수 있다
- $y$ 는 종속변수, $\mathbb{X}$ 는 독립변수, $\epsilon$ 는 오차항이다
- 이때 $\epsilon$ 는 독립적이고 평균이 0인 무작위 오차항이다
- $\hat{y}=\hat{f}(\mathbb{X})$ 로 $y$ 에 대한 추정모델 $\hat{f}$ 를 세울 수 있다
- 이때 $y-\hat{y}=(f(\mathbb{X})-\hat{f}(\mathbb{X}))+\epsilon$ 에 대하여 전자( $f(\mathbb{X})-\hat{f}(\mathbb{X}$ ))는 $\hat{f}(\mathbb{X})$ 의 정확도를 높여 줄일수 있는 부분이기에 reducible error라고 하며, 후자( $\epsilon$ )는 아무리 잘 추정하더라도 없앨수 없는 오류이기에 irreducible error라고 부른다

변수들

독립변수 independent varialbe (원인)
- 다른 변수에 영향을 받지 않는 변수이면서 다른 변수에 영향을 주는 변수
- 연구자가 의도적으로 변화시키는 변수
종속변수 dependent variable (결과)
- 다른 변수에 영향을 받으면서 다른 변수에 영향을 미칠 수 없는 변수
- 연구자의 관찰대상이 되는 변수
매개변수 parametric variable
- 다른 변수에 영향을 받을 수도 다른 변수에 영향을 줄 수 있는 변수
- 독립변수와 종속변수 사이 간접적으로 영향을 준다
외재변수 extraneous variable/ 외생변수 exogenous variable
- 종속변수에 영향을 미칠 수 있으나 연구에선 다루지 않는 변수
- 외재변수로서의 작용을 금하기 위해 변수를 제거하거나, 외재변수를 동일한 상태로 유지하려 할 때 해당 변수를 통제변수 control variable이라 부른다

계수와 가중치

계수 $coefficient$ : 변수 앞에 곱해진 상수/ 머신러닝에선 주로 가중치 $weight$ 란 이름으로 불린다

모델의 구축

모델의 특정: 모델의 구조를 수식으로 표현하기
- 변수 선택하기
  - 통계적 가설검증 활용: 귀무가설을 세워 기각되는 경우에는 독립변수를 필요하다고 판단/ 기각되지 않는 경우에는 독립변수를 제거하여 모델을 단순화 시킨다
  - 정보 기준: AIC라는 것을 활용하여 모델에서 가능한 변수의 패턴을 총 망라하고 AIC가 가장 적은 모델을 선택한다
파라미터 추정하기
모델 평가

모델의 종류

파라메트릭/ 논파라메트릭
- 파라메트릭 모델: 가능한 현상을 단순화 하여 소수의 파라미터만 사용하는 모델
- 함수 형태에 대해 가정한다.
- 가장 단순한 형태의 가정은 함수 $f$ 가 선형이란 것으로 다음과 같다
- $Y\sim f(X)=\beta_o+\beta_1X_1+\beta_2X_2+...+\beta_pX_p$
- $training\,\,data$ 를 활용하여 모델을 학습시킨다.
- 선형모델의 경우 파라미터 $\beta_0,\beta_1,\beta_2,...,\beta_p$ 의 추정을 한다
- 가장 일반적인 방법은 최소제곱법 $ordinary\,\,least\,\,square$ 이다
- 장점과 단점
- 함수의 종잡을수 형태를 추정하는 문제를 파라미터 $\beta_0,\beta_1,\beta_2,...,\beta_p$ 를 추정하는 문제로 난이도를 낮춘다
- 대신 이 가정한 함수의 형태가 진짜 함수 $f$ 와 다를수록 추정결과는 나쁠 수 밖에 없다
- ⇒ 이러한 문제를 극복하기 위해 좀 더 다양한 유연한 $flexible$ 형태의 모델 을 가정한다
- ⇒ 한편 유연한 형태의 모델을 만들기 위해선 더 많은 수의 파라미터를 요구한다. 파라미터가 많은 모델은 $overfitting$ 이라 불리는 문제현상을 야기할 수 있다
```
	- 논파라메트릭 모델: 소수의 파라미터를 사용한다는 방침을 취하지 않는 모델/ 복잡한 모델이 되기 쉬워 추정과 해석이 어려워질 수 있다
		-  함수 형태에 대해 어떤 가정도 하지 않는다
			- 대신 함수가 데이터포인트와 최대한 근접해 있으며, 지나치게 구불구불하거나 거칠지 않다고 가정한다
		- 장점과 단점
			- 좀 더 다양한 함수의 형태를 추정하는 데 좋은 방식이다
			- 적은 수의 파라미터로 추정하는 것이 아니기에 큰 수의 관측값 데이터가 필요하다
```
선형회귀모델linear regression model
- $y_i=\displaystyle\sum_{j=1}x_{ij}\beta_j+\beta_{0}$ 로 정의된 수학적 모델
- ( $x_{ij},\beta_j$ 는 각각 $i$ 번째 데이터의 $j$ 번째 성분의 값, $j$ 번째 계수를 의미한다.)
- 종속변수에 대하여 계수는 선형변환 linear transformation의 관계를, 독립변수는 아핀 변환 affine transformation의 관계를 갖는다
- 독립변수 $x_{ij}$ 를 1개 사용한 식을 단순회귀분석식 simple regression / 독립변수 $x_{ij}$ 를 2개 이상 사용한 식을 다중회귀분석식 multiple regression이라 한다
정규선형모델
- 종속변수가 정규분포를 따르는 것을 가정한 선형모델
- $y \sim{N(\displaystyle\sum_{j=1}x_{ij}\beta_j+\beta_{0},\sigma_{i}^2)}$
- 모집단분포를 정규분포로 가정하는 것이 올바른가를 평가하는 것과 파라미터의 값을 추정하는 두 단계로 나뉜다
- 분산분석: 독립변수가 카테고리형 변수인 정규선형모델
- 독립변수가 1종류면 일원분산분석 / 독립변수가 2종류면 이원분산분석이라 한다
일반선형모델 GLM: Generalized Linear Model
- 종속변수가 정규분포 이외의 다른 분포까지 가능하다 전제하는 일반적인 선형모델

milkbuttercheese

안녕하세요!

다음 포스트

수리통계학- 1.확률 이론

수리통계학

1. 통계학의 목적

2. 통계학의 기본 용어

집합

랜덤 표본

방법들

변수

확률분포의 수학적 공리

조건부 확률

결합 확률분포

주변 확률분포

조건부 확률 분포

통계량 Statistic

기댓값과 평균값

분산 Variance

모수 Population Parameter

추측 통계학의 3가지 추측

추측 통계학에서의 3가지 차이

자유도

통계학의 주요 정리

중심극한정리 Central Limit Theorem

큰수의 법칙 Law of Large Numbers

통계모델

모델이란?

변수들

계수와 가중치

모델의 구축

모델의 종류

수리통계학- 2. 확률변수 및 확률분포

0개의 댓글

수리통계학- 1.확률 이론

수리통계학

1. 통계학의 목적

2. 통계학의 기본 용어

집합

랜덤 표본

방법들

변수

확률분포의 수학적 공리

조건부 확률

결합 확률분포

주변 확률분포

조건부 확률 분포

통계량 Statistic

기댓값과 평균값

분산 Variance

모수 Population Parameter

추측 통계학의 3가지 추측

추측 통계학에서의 3가지 차이

자유도

통계학의 주요 정리

중심극한정리 Central Limit Theorem

큰수의 법칙 Law of Large Numbers

통계모델

모델이란?

변수들

계수와 가중치

모델의 구축

모델의 종류

수리통계학- 2. 확률변수 및 확률분포

0개의 댓글

확률분포의 수학적 공리