수리통계학- 1.확률 이론

milkbuttercheese·2023년 3월 21일
0

수리통계학

목록 보기
1/6

1. 통계학의 목적

  • 통계학이란?
    - 데이터를 잘 사용하는 방법을 알아내는 학문
  • 통계학의 분류
    - 기술통계학 Descriptive Statistics: 데이터셋 전체의 특성을 정리 요약하기 위해 사용되는 통계학
    - 추측통계학 Inferential Statistics
    - 가지고 있지 않는 미지의 데이터unknown data를 추측할 목적으로 사용되는 통계학
    - 표본이란 일부 데이터를 활용하여, 모집단이란 전체 데이터를 추측한다

2. 통계학의 기본 용어

집합

  • 모집단 Population
    - 정보를 얻고자 하는 관심 대상의 데이터셋
  • 표본 Sample C\mathcal{C}
    - 현재 보유하고 있는 데이터셋으로 모집단의 부분집합
    - 샘플사이즈 Sample Size: 표본이 갖고 있는 데이터의 수
  • 사건 event
    - 표본공간의 부분집합
  • 공간 spaceDspace \,\, \mathcal{D}
    • D={x:x=X(c),cC}\mathcal{D}=\{x:x =X(c), c\in \mathcal{C}\}
    • C\mathcal{C}는 표본공간
  • 받침 supportsupport SS
    • suppP={xD:pX(x)>0}supp \,P=\{x\in\mathcal{D} : p_X(x) >0\}
    • SDS \subseteq \mathcal{D} 의 관계를 갖는다

랜덤 표본

  • 랜덤표본
    - 조건
    - 확률변수 X1,X2,,XnX _{1},X _{2},\cdots,X _{n} 이 있다 하자
    - fX1,X2,,Xn(x1,x2,,xn)=f(x1)f(x2)f(xn)f _{X _{1},X _{2},\cdots,X _{n}}(x _{1},x _{2},\cdots,x _{n})=f(x _{1})f(x _{2})\cdots f(x _{n}) 이라고 하자
    - 정의
    - X1,X2,,XnX _{1},X _{2},\cdots,X _{n} 을 모확률밀도가 f()f(\cdot ) 이고, 크기가 nn 인 랜덤표본/임의표본 이라고 부른다
    - X1,X2,,XnX _{1},X _{2},\cdots,X _{n} 이 iid(independent and identically distributed)라고 칭한다

방법들

  • 샘플링 Sampling
    - 모집단에서 표본을 얻는 과정
  • 전수조사 Census
    - 모집단 전체를 조사하는 방법
  • 표본조사 Sample Survey
    - 모집단의 일부만 조사하는 것
  • 시행 trial
    - 1회의 조사를 수행하는 것
    - 일반적으로 하나의 표본평균을 측정하는 것을 1회 시행하였다고 한다

변수

  • 확률변수 Random Variable
    - 표본공간의 원소를 실수에 대응시킨 값
    - 실험결과의 정량적 수치
    - 변수의 종류
    - 수치형 변수: 정량적인 값으로 표현할 수 있는 데이터
    - 이산형 변수: 1마리,2마리와 같이 정수값만 가질 수 있는 데이터
    - 연속형 변수: 2.3cm, 4.5kg과 같이 실수값을 가질 수 있는 데이터
    - 수치형 변수는 때떄로 값을 몇개의 범위로 분할하여 지정할 수 있고, 이를 계급 class라 한다
    - 카테고리형 변수: 정량적인 수치로 표현할 수 없는 데이터
  • 확률분포 Probability Distribution
    - 확률변수와 그 값이 나올 확률을 대응시킨 함수
    - 이때 모집단이 따르는 확률분포를 모집단분포 Population Distribution이 되는데, 추론통계학에서 주로 알아내고자 하는 대상이 된다

확률분포의 수학적 공리

  • 확률집합함수 ProbabilitySetFunctionProbability \,\,Set \,\,Function
    - 조건
    - C\mathcal{C}: 표본공간
    - B\mathcal{B} : 사건의 집합
    - PP : B\mathcal{B} 상의 정의된 실함수
    - 정의: 다음의 세 조건을 만족시키면 PP를 확률집합함수라고 부른다
    1. 모든 ABA\in \mathcal{B}에 대해 P(A)0P(A) \ge 0
    2. P(C)=1P(\mathcal{C})=1
    3. 만약 {An}\{A_n \}B\mathcal{B}의 사건열이고 모든 mnm \ne n에 대해 AmAn=A_m \cap A_n = \emptyset 이면 P(n=1An)=n=1P(An)P(\cup_{n=1}^{\infty}A_n)=\sum_{n=1}^{\infty}P(A_n) 이다
    - ref.ref. 모든 mnm \ne n에 대해 AmAn=A_m \cap A_n = \emptyset 이면 서로 배타적 mutuallyexclusivelymutually\,\,exclusively이라고 하며 이 모임의 합집합은 배반인 합집합disjointunioindisjoint\,\,unioin으로 공통의 원소가 존재하지 않는다
    	- 이에 따라오는 성질들
    		- 조건
    			- $A,B \in \mathcal{B}$ 이다
    		- 정리
    			1. $P(A)=1-P(A^c)$ 이다
    			2. $P(\emptyset)=0$ 이다
    			3. $A\subseteq B$ 이면 $P(A) \le P(B)$ 이다
    			4. $0\le P(A) \le 1$ 이다
    			5. $P(A\cup B)= P(A)+P(B)-P(A\cap B)$
    		- 증명
    			1. $\mathcal{C}= A\cup A^c$ 이고 $A \cap A^c =\emptyset$ 이므로 $1=P(A)+P(A^c)$
    			2. $\mathcal{C} \cap \emptyset=\mathcal{C}$ ,  $\mathcal{C} \cap \emptyset =\emptyset$ 이므로 $1=P(\mathcal{C})+P(\emptyset)$
    			3. $B=(B\cap A) \cup (B \cap A^c)$, $B \cap A= A$, $P(B \cap A^c) \ge 0$ 이므로
    				- $P(B)=P(A)+P(B \cap A^c) \ge P(A)$
    			4. 임의의 사건 $A \in \mathcal{B}$는 $\emptyset \le A \le \mathcal{C}$ 이므로
    				- $P(\emptyset) \le P(A) \le P( \mathcal{C})  \,\,\,, 0 \le P(A) \le 1$
    			5. $A\cup B =A \cup (A^c \cap B)$
    				- $B=(A\cap B) \cup (A^c \cap B)$ 이므로 $P(B)=P(A \cap B)+P(A^c\cap B)$
    				- $P(A \cup B)=P(A)+P(A^c \cap B) =P(A)+P(B)-P(A\cap B)$
  • 확률질량함수 ProbabilityMassFunctionProbability \,\,Mass\,\,Function
    - 이산형 확률변수와 그 값이 나올 확률을 대응시킨 함수
    - 조건
    - 공간 D\mathcal{D}를 가진 이산형 확률변수 XX가 있다 하자
    - 정의
    - xDx\in \mathcal{D}에 대해 pX(x)=P[X=x]p_X(x)=P[X=x]
    - 이에 따라오는 성질
    - 0pX(x)1,xD0 \le p_X(x) \le 1, x \in \mathcal{D}
    - xDpX(x)=1\sum_{x\in \mathcal{D}}p_X(x)=1
  • 확률밀도함수 ProbabilityDensityFunctionProbability \,\,Density \,\,Function
    - 연속형 확률변수와 그 값이 나올 확률을 대응시킨 함수
    - 조건
    - 공간 D=R\mathcal{D}= \mathbb{R}을 가진 연속형 확률변수 XX가 있다하자
    - (연속형 확률변수란 확률변수 XX의 누적분포함수 FX(x)F_X(x)가 모든 xRx\in \mathbb{R}에 대해 연속함수인 경우를 지칭한다)
    - 정의
    - f(x)=ddxFX(x)=ddxxfX(t)dtf(x)= \displaystyle\frac{d}{dx}F_X(x)=\displaystyle\frac{d}{dx} \displaystyle\int_{-\infty}^{x} f_X(t)dt 를 만족하는
    - f(x)f(x)를 확률밀도함수라고 정의한다
    - 이에 따라오는 성질
    - fX(x)0f_X(x) \ge 0
    - fX(t)dt=1\displaystyle\int_{-\infty}^{\infty} f_X(t)dt=1

조건부 확률

  • 조건
    - 표본공간 C\mathcal{C} 가 있고, 사건 A,BCA,B \in \mathcal{C} 이 있다 하자
  • 정리
    - 사건 BB 가 일어났을 때 사건 AA 가 일어날 확률은
    - P(AB)=P(AB)P(B)P(A|B)=\displaystyle\frac{P(A \cap B)}{P(B)}
  • 전확률 공식
    - 조건
    - B1,B2,,BkB _{1},B _{2},\cdots,B _{k} 는 상호 배반이고 i=1nBi=C\cup _{i=1} ^{n}B _{i}=\mathcal{C} 라고 하자. 임의의 사건 ACA \in \mathcal{C} 이 있다하자
    - 정리
    - P(A)=i=1kP(Bi)P(ABi)P(A)=\displaystyle\sum\limits_{i=1}^{k}{P(B _{i})P(A|B _{i})}
  • 베이즈 정리
    - 조건
    - B1,B2,,BkB _{1},B _{2},\cdots,B _{k} 는 상호 배반이고 i=1nBi=C\cup _{i=1} ^{n}B _{i}=\mathcal{C} 라고 하자. 임의의 사건 ACA \in \mathcal{C} 이 있다하자.
    - 정리
    - P(BjA)=P(Bj)P(ABj)i=1kP(Bi)P(ABi)P(B _{j}|A)=\displaystyle\frac{P(B _{j})P(A|B _{j})}{\displaystyle\sum\limits_{i=1}^{k}{P(B _{i})P(A|B _{i})}}
    - 해석
    - 사건 AA 가 일어난 후 사건 BjB _{j} 이 일어날 확률을 구하는데에는, 사건 BiB _{i} 들이 일어날 확률과, 사건 BiB _{i} 가 일어나고 AA 가 일어날 확률을 알면 계산할 수 있다

결합 확률분포

Joint Proabability distribution function

  • 조건
    - 확률변수 X1,X2,,XkX _{1},X _{2},\cdots, X _{k} 가 있다하자
  • 정의
    - F(x1,x2,,xk)=P(X1x1,X2x2,,Xkxk)F(x _{1},x _{2},\cdots,x _{k})=P(X _{1}\le x _{1},X _{2}\le x _{2},\cdots, X _{k}\le x _{k})
  • 성질
    - f(x1,x2,,xn)=kx1x2xkF(x1,x2,,xk)f(x _{1},x _{2},\cdots,x _{n})=\cfrac{\partial ^{k}{}}{\partial {x _{1}}\partial_{\displaystyle{}}x _{2}\cdots \partial_{\displaystyle{}}x _{k}}F(x _{1},x _{2},\cdots,x _{k}) 이다(ff 는 결합확률밀도 joint probability density function 이라 불린다)

주변 확률분포

marginal distribution

  • 특정 독립변수에 대해 적분하여, 그 변수의 의존성이 없는 분포 형태
  • 조건
    - 확률변수 X1,X2,,XkX _{1},X _{2},\cdots, X _{k} 가 있다하자
  • 정의
    - fXi(xi)=f(x1,x2,,xk)dx1dx2dxi1dxi+1dxkf _{X _{i}}(x _{i})=\displaystyle\int_{}^{}{\cdots \displaystyle\int_{}^{}{f(x _{1},x _{2},\cdots,x _{k})}}dx _{1}dx _{2}\cdots dx _{i-1}dx _{i+1}\cdots dx _{k}

조건부 확률 분포

  • 조건
    - 확률변수 X1,X2,,XkX _{1},X _{2},\cdots, X _{k} 가 있다하자
  • 정의
    - f(xi+1,xi+2,,xkx1,x2,,xi)=f(x1,x2,,xk)f(x1,x2,,xi)f(x _{i+1},x _{i+2},\cdots,x _{k}|x _{1},x _{2},\cdots,x _{i})=\displaystyle\frac{f(x _{1},x _{2},\cdots,x _{k})}{f(x _{1},x _{2},\cdots,x _{i})}

통계량 Statistic

  • 미지의 모수를 포함하지 않는 랜덤표본의 함수. 임의표본을 대표하는 값이다

기댓값과 평균값

  • 평균값 Mean
    - μ=1Ni=1Nxi\mu=\displaystyle\frac{1}{N}\displaystyle\sum_{i=1}^{N}{x_i}, 이때 NN 는 샘플 데이터셋의 크기
    - 확률이란 개념이 포함되지 않은 상태에서 정의된다
  • 기대값 Expectation Value
    - μ=i=1NP(xi)xi\mu=\displaystyle\sum_{i=1}^{N}{P(x_{i})\cdot x_i}
    - 어떤 확률과정을 무한히 반복하였을 때, 얻을수 있는 평균으로 기대되는 값
  • 확장된 기대값 정의
    - E[g(X)]=g(x)p(x)dx\mathbb{E}[g(X)]=\displaystyle\int_{}^{}{g(x)p(x)dx}
  • 기댓값의 성질
    - E[aX+b]=aE[X]+b\mathbb{E}[aX+b]=a \mathbb{E}[X]+b
    - E[XY]=E[X]E[Y]\mathbb{E}[XY]=\mathbb{E}[X]\mathbb{E}[Y] (X,YX,Y가 서로 독립이라면)
    - E[g(X)h(Y)]=E[g(X)]E[h(Y)]\mathbb{E}[g(X)h(Y)]=\mathbb{E}[g(X)]\mathbb{E}[h(Y)] (X,YX,Y가 서로 독립이라면)

분산 Variance

  • 데이터들이 평균으로부터 얼마나 떨어져있는가를 측정하는 척도
  • 분산의 종류
  • 모분산 Population Variance
    - σ2=1Ni=1N(xiμ)2\sigma^2=\displaystyle\frac{1}{N}\displaystyle\sum_{i=1}^{N}{(x_i-\mu)^2}
    - σ2=i=1NP(xi)(xiμ)2=E[(XE(X))2]\sigma^2=\displaystyle\sum_{i=1}^{N}P(x_i){(x_i-\mu)^2}=\mathbb{E}[(X-\mathbb{E}(X)) ^{2}]
    - 전체 데이터가 모평균으로 부터 얼마나 벗어나있는지를 측정하는 척도
  • 표본분산 Sample Variance
    - s2=1N1i=1N(xiE(xi))2s^2=\displaystyle\frac{1}{N-1}\displaystyle\sum_{i=1}^{N}{(x_{i}-E(x_{i}))^2}
    - 표본 데이터가 기대값으로부터 얼마나 벗어나있는지 측정하는 척도
    - 표본분산의 기댓값이 모분산과 같게 하기 위하여 샘플의 크기 NN 대신 N1N-1로 나누는 특징을 갖는다
  • 공분산 Covariance
    - Cov(x,y)=1Ni=1N(xiμx)(yiμy)Cov(x,y)=\displaystyle\frac{1}{N}\displaystyle\sum_{i=1}^{N}{(x_{i}-\mu_{x})(y_{i}-\mu_y)}
    - Cov(x,y)=E[(xE(x))(yE(y))]Cov(x,y)=\mathbb{E}[(x-E(x))(y-E(y))]
    - =E[XY]E[X]E[Y]=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]
    - 2개 이상의 연속확률변수의 선형적 관계를 측정하는 척도이다
  • 표본 공분산 Sample Covaraince
    - Sxy2=1N1i=1N(xiμx)(yiμy)S_{xy}^{2}=\displaystyle\frac{1}{N-1}\displaystyle\sum_{i=1}^{N}{(x_{i}-\mu_{x})(y_{i}-\mu_{y})}
  • 분산- 공분산 행렬 Variance-Covariance Matrix
    - Cov(x,y)=[σx2Cov(x,y)Cov(x,y)σy2]Cov(x,y)=\begin{bmatrix} \sigma_{x}^2 & Cov(x,y) \\ Cov(x,y) & \sigma_{y}^2 \end{bmatrix}
  • 피어슨 상관계수 Pearson Correlation Coefficient
    - ρxy=Cov(x,y)σx2σy2\rho_{xy}=\displaystyle\frac{Cov(x,y)}{\sqrt{\sigma_{x}^{2}\sigma_{y}^{2}}}
    - 공분산의 최대값을 1, 최솟값이 -1이 되도록 표준화 시킨 값
  • 표본 피어슨 상관계수 Sample PCC
    - rxy=i=1N(xiE(x))(yiE(y))N1i=1N(xiE(x))2N1i=1N(yiE(y))2N1=i=1n(xiE(x))(yiE(y))i=1N(xiE(x))2i=1N(yiE(y))2r_{xy}=\displaystyle\frac{\displaystyle\frac{\displaystyle\sum_{i=1}^{N}{(x_{i}-E(x))(y_i-E(y))}}{N-1}}{\sqrt{\displaystyle\frac{\displaystyle\sum_{i=1}^{N}{(x_i-E(x))^2}}{N-1}}\sqrt{\displaystyle\frac{\displaystyle\sum_{i=1}^{N}{(y_{i}-E(y))^2}}{N-1}}}=\displaystyle\frac{\displaystyle\sum_{i=1}^{n}{(x_{i}-E(x))(y_{i}-E(y))}}{\sqrt{\displaystyle\sum_{i=1}^{N}{(x_i-E(x))^2}}\sqrt{\displaystyle\sum_{i=1}^{N}({y_{i}-E(y))^2}}}
    - 계산하면 알수 있지만 NN이나 N1N-1이나 rxyr_{xy}의 계산값이 동일하므로, 피어슨 상관계수와 표본 피어슨 상관계수의 값은 동일하다.
    	- 표준오차 Standard Error
    		- 표본 통계량의 표준 편차
    		- 통계량 추정치에 대한 불확실정도를 정량화한 것이다
  • 분산의 성질
    - Var(aX+b)=a2Var(X)+bVar(aX+b)=a ^{2}Var(X)+b
    - Cov(aX+b,cX+d)=acCov(X,Y)Cov(aX+b,cX+d)=ac \cdot Cov(X,Y)
  • 이중 기댓값 정리
    - E[E(YX)]=E[Y]\mathbb{E}[\mathbb{E}(Y|X)]=\mathbb{E}[Y]

모수 Population Parameter

  • 모집단을 분석하여 측정할 수 있는 모집단의 특성값들
  • 주로 확률분포를 결정하는 parameter로서 활용된다

추측 통계학의 3가지 추측

  • 추정 estimationestimation
    - 표본데이터를 활용 및 분석하여 모수를 추론해내는 것
    - 점추정
    - 모수의 값에 가깝다 예상되는 하나의 값을 추정하는 것
    - 구간추정
    - 모수를 포함할 구간과 그 구간에 있을 확률을 추정하는 것
  • 예측 predictpredict
    - 모델을 사용하여 새 데이터 포인트에 대한 결과를 예측하는 것
    - 예측 과정
    - 모델링: 여러 모델과 파라미터들을 고려한다
    - 모델 선택: 그중 최고의 퍼포먼스를 보이는 모델을 선택한다
    - 예측: 선택한 최적한 모델에 데이터를 사용하여 원하는 정보를 예측한다
  • 추론 inferenceinference
    - 독립변수가 종속변수에 어떻게 영향을 미쳤는지 탐구하고 모델을 개선하는 것

추측 통계학에서의 3가지 차이

  • 편차 deviationdeviation
    - 모집단 평균과 관측치 사이의 차이
  • 잔차 residualresidual
    - 표본의 회귀식으로 추정한 값과 관측값 사이 차이
    - yiyi^y_{i}-\hat{y_{i}}
    - 이때 잔차제곱합 Residual Sum of Square를 다음과 같이 계산한다
    - RSS=i=1n(yiyi^)2RSS= \displaystyle\sum_{i=1}^{n}{(y_{i}-\hat{y_{i}})^2}
  • 오차errorerror
    - 모집단의 회귀식으로 추정한 값과 관측값 사이 차이(실수를 하지 않은 관측)
    - 표준오차
    - 모수 예측값과 표본평균(추정된 통계량) 사이의 차이
    - 표본평균의 표준편차

자유도

  • 통계학에서 자유도란 계산의 자유도로 '서로 독립적인 정보의 수'를 의미한다

  • - 표본분산의 자유도는 표본의 갯수nn-1인가?
    - 표본 x1,x2,x3x_1,x_2,x_3 가 있다 하자. 그리고 표본평균 xˉ=x1+x2+x33\bar{x}=\displaystyle\frac{x_1+x_2+x_3}{3} 이라하자
    - s2=(xˉx1)2+(xˉx2)2+(xˉx3)22s^2=\displaystyle\frac{(\bar{x}-x_1)^2+(\bar{x}-x_2)^2+(\bar{x}-x_3)^2}{2}
    - 이 식에서 x1,x2,x3x_1,x_2,x_3 라는 3개의 변수가 있었다. 이때 평균 xˉ\bar{x} 의 값이 주어진다음에 x1,x2x_1,x_2의 값을 정한다고 하자. 그러면 x3x_3는 자동으로 값이 정해지기 때문에 기존의 자유도에서 1이 줄어든다고 설명할 수 있다

통계학의 주요 정리

중심극한정리 Central Limit Theorem

  • 표본의 크기 NN이 커지면 커질수록, 표본 평균의 분포는 모집단의 분포모양에 관계없이 정규분포에 가까워진다는 정리이다
  • 이때 표본 평균의 기댓값은 모평균과 같고, 표본평균의 표준편차는 모표준편차에서 표본크기 NN의 제곱근으로 나눈값과 같다
  • 조건
    - 독립항등분포i.i.di.i.d를 따르는 확률변수 x1,x2,...,xnx_1,x_2,...,x_n이 있다하자
    - (독립항등분포 independent and identically distributed: 확률변수 X1,X2,...,XnX_1,X_2,...,X_n 들이 모두 서로 상호독립적이며, 동일한 확률분포에서 추출되었을 것이라는 가정 )
    - 각각의 변수들은 평균과 표준편차가 각각 μ,σ\mu,\sigma인 모수 분포로부터 추출되었다고 하자
  • 결론
    - Z=limnXnˉμσXˉZ=\lim_{n\to \infty}{\displaystyle\frac{\bar{X_n}-\mu}{\sigma_{\bar{X}}}}( Xˉ=1ni=1nXi\bar{X}=\displaystyle\frac{1}{n}\displaystyle\sum_{i=1}^{n}{X_i} ,σXˉ=σn\sigma_{\bar{X}}=\displaystyle\frac{\sigma}{\sqrt{n}} )은 표준정규분포를 향해간다
    - 표본평균의 표준편차 σXˉ\sigma_{\bar{X}} 는 표준오차 SESE 라고도 불린다

큰수의 법칙 Law of Large Numbers

  • 표본의 크기 NN이 커질수록 표본 평균의 값이 모평균에 가까워질 가능성이 높다는 정리이다
  • limnP(Xˉnμ<ϵ)=1\lim{n\to \infty}\,\,P(|\bar{X}_{n}-\mu|< \epsilon)=1

통계모델

  • 모델의 정의
  • 기초분포모델

모델이란?

  • 수학적 모델/ 수리모델 Mathematical Model
    - 수학적 개념과 언어를 활용하여 서술된 시스템(일정한 규칙에 따라 상호작용하는 요소들의 집합)이다
    - 수학적 모델의 분류 기준
    • 선형인가 비선형인가?
      - 수학적 선형성 linearlity 를 따르는가로 구분
    • 정적인가 동적인가?
      - 시스템의 상태가 시간에 따라 변화하는지 안하는지로 구분
    • 명시적인가 암묵적인가?
      - 모델의 모든 입력 파라미터가 알려져있고, 출력 파라미터가 유한번의 계산을 통해 구해질 수 있는가? 없는가?
    • 연속적인가 비연속적인가?
    • 결정론적인가 확률론적인가?
      - 상태 변수가 이전 상태 변수에 의해 고유하게 결정되는가 아닌가?
      - 만일 전자라면 초기조건이 동일하다면 그 후 과정은 항상 동일한 결과를 갖는다
    • 연역적인가 귀납적인가?
      - 귀납적 모델: 경험적 사실로부터 일반화된 법칙을 존재함을 주장하는 것
      - 연역적 모델: 주어진 사실을 논리적으로 전개하여 새로운 사실을 발견하는 것
  • 확률 모델
    - 관측되는 데이터에 대응되는 발생확률을 수학모델로 제작한 것이다
    - y=f(X)+ϵy=f(\mathbb{X})+\epsilon 으로 표현될 수 있다
    - yy 는 종속변수, X\mathbb{X} 는 독립변수, ϵ\epsilon 는 오차항이다
    - 이때 ϵ\epsilon는 독립적이고 평균이 0인 무작위 오차항이다
    - y^=f^(X)\hat{y}=\hat{f}(\mathbb{X})yy 에 대한 추정모델 f^\hat{f}를 세울 수 있다
    - 이때 yy^=(f(X)f^(X))+ϵy-\hat{y}=(f(\mathbb{X})-\hat{f}(\mathbb{X}))+\epsilon 에 대하여 전자(f(X)f^(Xf(\mathbb{X})-\hat{f}(\mathbb{X}))는 f^(X)\hat{f}(\mathbb{X})의 정확도를 높여 줄일수 있는 부분이기에 reducible error라고 하며, 후자(ϵ\epsilon)는 아무리 잘 추정하더라도 없앨수 없는 오류이기에 irreducible error라고 부른다

변수들

  • 독립변수 independent varialbe (원인)
    - 다른 변수에 영향을 받지 않는 변수이면서 다른 변수에 영향을 주는 변수
    - 연구자가 의도적으로 변화시키는 변수
  • 종속변수 dependent variable (결과)
    - 다른 변수에 영향을 받으면서 다른 변수에 영향을 미칠 수 없는 변수
    - 연구자의 관찰대상이 되는 변수
  • 매개변수 parametric variable
    - 다른 변수에 영향을 받을 수도 다른 변수에 영향을 줄 수 있는 변수
    - 독립변수와 종속변수 사이 간접적으로 영향을 준다
  • 외재변수 extraneous variable/ 외생변수 exogenous variable
    - 종속변수에 영향을 미칠 수 있으나 연구에선 다루지 않는 변수
    - 외재변수로서의 작용을 금하기 위해 변수를 제거하거나, 외재변수를 동일한 상태로 유지하려 할 때 해당 변수를 통제변수 control variable이라 부른다

계수와 가중치

  • 계수coefficientcoefficient: 변수 앞에 곱해진 상수/ 머신러닝에선 주로 가중치weightweight란 이름으로 불린다

모델의 구축

  • 모델의 특정: 모델의 구조를 수식으로 표현하기
    • 변수 선택하기
      • 통계적 가설검증 활용: 귀무가설을 세워 기각되는 경우에는 독립변수를 필요하다고 판단/ 기각되지 않는 경우에는 독립변수를 제거하여 모델을 단순화 시킨다
      • 정보 기준: AIC라는 것을 활용하여 모델에서 가능한 변수의 패턴을 총 망라하고 AIC가 가장 적은 모델을 선택한다
  • 파라미터 추정하기
  • 모델 평가

모델의 종류

  • 파라메트릭/ 논파라메트릭
    - 파라메트릭 모델: 가능한 현상을 단순화 하여 소수의 파라미터만 사용하는 모델
    - 함수 형태에 대해 가정한다.
    - 가장 단순한 형태의 가정은 함수 ff가 선형이란 것으로 다음과 같다
    - Yf(X)=βo+β1X1+β2X2+...+βpXpY\sim f(X)=\beta_o+\beta_1X_1+\beta_2X_2+...+\beta_pX_p
    - trainingdatatraining\,\,data를 활용하여 모델을 학습시킨다.
    - 선형모델의 경우 파라미터 β0,β1,β2,...,βp\beta_0,\beta_1,\beta_2,...,\beta_p의 추정을 한다
    - 가장 일반적인 방법은 최소제곱법 ordinaryleastsquareordinary\,\,least\,\,square 이다
    - 장점과 단점
    - 함수의 종잡을수 형태를 추정하는 문제를 파라미터 β0,β1,β2,...,βp\beta_0,\beta_1,\beta_2,...,\beta_p를 추정하는 문제로 난이도를 낮춘다
    - 대신 이 가정한 함수의 형태가 진짜 함수 ff와 다를수록 추정결과는 나쁠 수 밖에 없다
    - ⇒ 이러한 문제를 극복하기 위해 좀 더 다양한 유연한flexibleflexible 형태의 모델 을 가정한다
    - ⇒ 한편 유연한 형태의 모델을 만들기 위해선 더 많은 수의 파라미터를 요구한다. 파라미터가 많은 모델은 overfittingoverfitting이라 불리는 문제현상을 야기할 수 있다

    	- 논파라메트릭 모델: 소수의 파라미터를 사용한다는 방침을 취하지 않는 모델/ 복잡한 모델이 되기 쉬워 추정과 해석이 어려워질 수 있다
    		-  함수 형태에 대해 어떤 가정도 하지 않는다
    			- 대신 함수가 데이터포인트와 최대한 근접해 있으며, 지나치게 구불구불하거나 거칠지 않다고 가정한다
    		- 장점과 단점
    			- 좀 더 다양한 함수의 형태를 추정하는 데 좋은 방식이다
    			- 적은 수의 파라미터로 추정하는 것이 아니기에 큰 수의 관측값 데이터가 필요하다
  • 선형회귀모델linear regression model
    - yi=j=1xijβj+β0y_i=\displaystyle\sum_{j=1}x_{ij}\beta_j+\beta_{0} 로 정의된 수학적 모델
    - ( xij,βjx_{ij},\beta_j는 각각 ii번째 데이터의 jj번째 성분의 값, jj번째 계수를 의미한다.)
    - 종속변수에 대하여 계수는 선형변환 linear transformation의 관계를, 독립변수는 아핀 변환 affine transformation의 관계를 갖는다
    - 독립변수 xijx_{ij}를 1개 사용한 식을 단순회귀분석식 simple regression / 독립변수 xijx_{ij}를 2개 이상 사용한 식을 다중회귀분석식 multiple regression이라 한다

  • 정규선형모델
    - 종속변수가 정규분포를 따르는 것을 가정한 선형모델
    - yN(j=1xijβj+β0,σi2)y \sim{N(\displaystyle\sum_{j=1}x_{ij}\beta_j+\beta_{0},\sigma_{i}^2)}
    - 모집단분포를 정규분포로 가정하는 것이 올바른가를 평가하는 것과 파라미터의 값을 추정하는 두 단계로 나뉜다
    - 분산분석: 독립변수가 카테고리형 변수인 정규선형모델
    - 독립변수가 1종류면 일원분산분석 / 독립변수가 2종류면 이원분산분석이라 한다

  • 일반선형모델 GLM: Generalized Linear Model
    - 종속변수가 정규분포 이외의 다른 분포까지 가능하다 전제하는 일반적인 선형모델

profile
안녕하세요!

0개의 댓글