(확률 통계) 확률기초 및 통계용어

꼼댕이·2022년 9월 24일
0

확률 통계

목록 보기
1/3

1. 통계 용어

  • 모집단
    - 우리가 궁극적으로 알고 싶은 전체 집단
  • 표본집단
    - 모집단에서 일부 지정한 집단
  • 통계량
    - 표본의 평균(E(Xˉ)=μE(\bar X)=\mu), 표본의 표준편차(σ\sigma), 표본의 분산(σ2\sigma^2) 등...
  • 모수 (parameter)
    - 모집단의 모평균(E(X)E(X)), 모표준편차(SS), 모분산 (V(X)V(X)) 등...
  • 표집분포(sampling distribution)
    - 통계량의 확률분포 ( = 표본평균의 확률 분포 )
    - [표진분포 \neq 표본분포]

결과적으로 통계량을 통해 모수 추정 하는 것이 목표

  • 모수적 방법
    - 우리는 중심극한정리에 의해 본래의 분포와 상관없이 무작위로 복원추출된 연속형 자료의 평균의 분포는 정규분포를 띈다는 것을 알고 있다.
    비교하고자 하는 두 집단이 모두 정규 분포를 띈다면 그 두 집단의 평균을 비교함으로써 차이를 밝힐 수 있다.

    이렇듯 정규성을 갖는다는 모수적 특성을 이용하는 통계적 방법을 '모수적 방법' 이라 한다.

2. 확률 기초

2.1 확률 계산

E(X)Exp(x)[f(x)]=xf(x)p(x)dx,  Exp(x)[f(x)]=xXf(x)p(x)dxE(X)\qquad E_{x\sim p(x)}[f(x)] = \int_{x}f(x)p(x)dx,\ \ E_{x\sim p(x)}[f(x)] = \sum_{x\in X}f(x)p(x)dx

V(X)Exp(x)[(xE(X))2]V(X)\qquad E_{x\sim p(x)}[(x-E(X))^2]

Skewness(X)E[(XˉE(X)V(x))3]Skewness(X)\qquad E[({\bar X - E(X)\over \sqrt {V(x)}})^3]

COV(X1,X2)Ex1,x2p(x1,x2)[(x1E(X1)(x2E(X2)]COV(X_{1}, X_{2})\qquad E_{x_{1}, x_{2}\sim p(x1,x2)}[(x_{1}-E(X_{1})(x_{2}-E(X_{2})]

Expample

X={1,2,3,4,5}X = \{1,2,3,4,5\} 일 때
E(x)=1+2+3+4+55=3E(x) = {1+2+3+4+5\over5} = 3
V(x)=15((13)2+(23)2+(33)2+(43)2+(53)2)=2V(x) = {1\over 5}((1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2) = 2
S=2S = \sqrt 2


표본확률 X={1,2,3,4,5}일때X=\{1,2,3,4,5\}일 때
표본평균 μ=1+2+3+4+55=3\mu = {1+2+3+4+5\over5} = 3
표본분산 σ2=1N1Σi=1N(XiXˉ)2\sigma^2 = {1 \over \color{red}N-1}\Sigma_{i=1}^N(X_{i} - \bar X)^2

표본 분산에서 분모가 N-1인 이유!?
=> 기본적으로 표본은 모집단의 성질을 그대로 나타내ㅜ저야 한다!
그래서 표본분산의 평균이 모분산과 같아져야 하는데
어떤 표본집단의 분산은 모분산보다 클 수도있고 작을수도 있다.
만약 표본분산의 분모 = n-1일 때 E(s2)E(s^2) = σ2\sigma^2이 되면 만족하는데 아래의 식을 거쳐 만족하기 때문에 n-1이 분모가 된다!

2.2 분포

확률 분포를 가정하는 방법 -> histogram

  • 베르누이 분포   \;\qquad\qquad 데이터가 2개의 값(0,1)만 가지는 경우
  • 카테고리 분포   \;\qquad\qquad 데이터가 n개의 이산적인 값을 가지는 경우
  • 베타 분포 \qquad\qquad\qquad 데이터가 [0,1] 사이에서 값을 가지는 경우
  • 감마, 로그분포 \,\qquad\qquad 데이터가 0 이상의 값을 가지는 경우
  • 정규분포, 라플라스분포 \quad 데이터가 R전체에서 값을 가지는 경우

2.3 조건부 확률과 베이즈 통계학

조건부 확률

P(AB)=P(B)P(AB)P(AB)=P(AB)P(B)P(A\cap B) = P(B)P(A|B)\\ P(A|B) = {P(A\cap B) \over P(B)}

베이즈 통계학 (나중에 따로 정리)
베이즈 정리

  • 데이터가 새로 추가되었을 때 정보를 업데이트 하는 방식에 대한 기반이되어 머신러닝에 사용되는 예측 모형의 방법론으로 굉장히 많이 사용되는 개념!!

A 정보가 주어졌을 때 B가 일어날 확률을
B정보가 주어졌을때 A가 일어날 확률식으로 표현할 수 있다

P(BA)=P(AB)P(A)=P(B)P(AB)P(A)P(B\cap A) = {P(A\cap B)\over P(A)} = {P(B)P(A|B)\over P(A)}


위의 식을 일반적으로 베이즈 정리라고 한다.

위 식에서 핵심사건 A 가 일어났을 때의 확률( P(Bj|A) ) 을 계산함에 있어서 이를 거꾸로 뒤집어 B 가 일어났을 때의 확률들( P(A|Bi) 들 )로 표현 할 수 있다는 것!

즉 A 가 조건으로 주어졌을 때 B 의 확률에 대해서 궁금했던 것을 반대로 B 가 조건으로 주어졌을 때 A 의 확률에 대해서 이야기 하는 것으로 바꾸어 쓸 수 있다는 것!!

데이터가 주어졌을 때 구하고자 하는 확률은 보통 다음과 같은 수식으로 설명된다

P(θD)=P(θ)P(Dθ)P(D)P(\theta|D) = P(\theta){P(D|\theta) \over P(D)}

P(θD)P(\theta|D) = 사후확률(posterior) : 구하고자 하는 확률
P(θ)P(\theta) = 사전확률(prior) : 이전에 일어난 확률
P(Dθ)P(D|\theta) = 가능도(likelihood) : 주어진 모수에서 데이터가 관찰될 확률
P(D)P(D) = Evidence : 데이터 전체의 분포
θ\theta : (가설, 가정, 파라미터)

이를 베이즈 정리를 적용해서 다음과 같은 문제를 해결할 수 있다.
Example)
COVID-99의 발병률이 10%로 알려져 있다. COVID-99에 실제 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진 될 확률이 1%라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때, COVID-99에 감염되었을 확률은?

P(θD)=P(θ)P(Dθ)P(D){\color{red}P(\theta|D)} = {\color{blue}P(\theta)}{{\color{green}P(D|\theta)} \over {P(D)}}

P(θD)P(\theta|D) = ?
P(θ)P(\theta) = 0.1
P(Dθ)P(D|\theta) = 0.99
P(D¬θ)P(D|\neg\theta) = 0.01

P(D)=θP(Dθ)P(θ)=0.990.1+0.010.9=0.108P(D) = \sum_{\theta}P(D|\theta)P(\theta) = 0.99 * 0.1 + 0.01 * 0.9 = 0.108
P(θD)=0.10.990.1080.916P(\theta|D) = 0.1 * {0.99\over 0.108} \approx 0.916

*만일 오검진될 확률(1종 오류)이 1%가 아닌 10%라면?

P(D)=θP(Dθ)P(θ)=0.990.1+0.10.9=0.189P(D) = \sum_{\theta}P(D|\theta)P(\theta) = 0.99 * 0.1 + 0.1 * 0.9 = 0.189
P(θD)=0.10.990.1890.524P(\theta|D) = 0.1 * {0.99\over 0.189} \approx 0.524

값의 차이가 굉장히 커지게 된다!

바로 위와 동일한 상태에서 COVID-99 판정을 받은 사람이 두 번째 검진을 받았을 때도 양성이 나왔을 때 진짜 COVID-99에 걸렸을 확률은?

정보갱신

  • 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전활률로 사용하여 갱신된 사후확률을 계산할 수 있다.
    newP(θD)=oldP(θ)P(Dθ)P(D)newP(\theta|D) = oldP(\theta){P(D|\theta) \over P(D)}
    oldP(θD)=P(θ)P(Dθ)P(D)oldP(\theta|D) = P(\theta){P(D|\theta) \over P(D)}
    P(D)=0.990.524+0.10.476=0.566P(D^*) = 0.99 * {\color{blue}0.524} + 0.1 * {\color{gray}0.476} = {\color{red}0.566}
    P(θD)=0.5240.990.5660.917P(\theta|D^*) = {\color{blue}0.524} * {0.99\over {\color{red}0.566}} \approx {\color{red}0.917}

<참고>

profile
사람을 연구하는 공돌이

0개의 댓글

관련 채용 정보