04. 연속값의 확률분포

maro·2024년 1월 9일
0

"프로그래머를 위한 확률과 통계" 책과 스터디 내용을 기반으로 작성하였습니다.


4.1 밀도 계산

  • 연속값
    • 유한하여 셀 수 있거나 무한하여도 셀 수 있는 값
  • 연속확률변수
    • 특정 공간에서 연속적으로 차지하고 있는 확률
    • 가질 수 있는 값을 모두 나열할 수 없습니다.
    • 개별적인 특정값을 가질 확률은 0입니다.
      • 확률의 계산이 면적으로 이루어지고 있기 때문입니다.

1) 누적분포함수

  • 확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수
  • 각 확률밀도함수의 면적을 통해서 계산됩니다.
  • F(x)=Px(Xx)F(x) = P_{x}(X \le x) = xf(t)dt\int_{-\infty}^{x}f(t)dt

2) 확률밀도함수

  • 함수의 아랫면적의 합이 1이 됩니다.

    f(x)dx\int_{- \infty}^{\infty}f(x)dx = 1

  • 특정 구간의 면적인 경우는 다음과 같습니다.

    abf(x)dx\int_{a}^{b}f(x)dx = P(a xb\le x \le b)

  • 연속된 값들이기에 어떤 값의 분포가 높은지 알기 어렵습니다.

  • 항상 f(x)0f(x) \ge 0 을 만족합니다.

  • 작은 구간폭을 기준으로 각 확률밀도를 산정하여 합한 값을 구합니다.

3) 균등분포

  • 확률변수 f(x)f(x)의 특정 구간 내의 면적(확률밀도함수)이 1이라고 가정합니다.
  • 구간의 범위를 어떤 방식으로 지정하여도 모든 구간의 확률밀도 함수가 동일합니다.

4.2 결합분포, 주변분포, 조건부분포

1) 결합분포

  • 모든 결합확률분포는 0보다 크거나 같은 값을 가집니다. (면적을 계산하기 때문에)

    fX,Y(x,y)0f_{X,Y}(x,y) \ge 0

  • 결합확률 영역의 면적을 구하기 위해 미분 시 두 번의 미분을 진행해야 합니다.

  • 이 때 다음의 조건을 만족합니다.

    P(aXb,cYd)P(a \le X \le b, c\le Y\le d)
    = ab(cdfX,Y(x,y)dy)dx\int_{a}^{b} \bigg( \int_{c}^{d}f_{X, Y}(x, y)dy\bigg)dx = cd(abfX,Y(x,y)dx)dy\int_{c}^{d} \bigg( \int_{a}^{b}f_{X, Y}(x, y)dx\bigg)dy

  • 또한 모든 범위의 이중 적분 역시 1의 값을 가집니다.

    • 위 식에서 a, c가 -\infty, b, d가 \infty의 값을 가지는 경우

2) 주변분포

  • X나 Y 단독의 확률분포
    • fX(x)=fX,Y(x,y)dyf_{X}(x) = \int_{- \infty}^{\infty}f_{X, Y}(x, y)dy
    • fY(y)=fX,Y(x,y)dxf_{Y}(y) = \int_{- \infty}^{\infty}f_{X, Y}(x, y)dx
  • 구간이 있는 경우

    aba\le b, P(aXb)P(a \le X \le b)

    • ab(fX,Y(x,y)dy)dx\int_{a}^{b} \bigg( \int_{- \infty}^{\infty}f_{X, Y}(x, y)dy\bigg)dx
    • y의 범위는 신경쓰지 않고 x의 범위만 신경쓰기 때문에 위와 같은 식이 나타납니다.

3) 조건부 분포

  • x가 특정 범위에 있으면서 y가 특정 범위를 가지는 경우

    a값에서 y의 범위를 가지는 함수

    • g(y)=fX,Y(a,y)g(y) = f_{X, Y}(a, y)
    • h(y)0h(y) \ge 0, h(y)dy\int_{- \infty}^{\infty}h(y)dy = 1
    • h(y)=fX,Y(a,y)fX(a)h(y) = \frac {f_{X, Y}(a, y)} {f_{X}(a)}
    • a 조건에서 y범위를 가지는 분포

4.3 베이즈 공식

1) 연속확률밀도에 따른 베이즈 정리 적용

  • 조건부분포: fYXf_{Y|X}
  • 주변분포: fXf_{X}
  • 반대 방향 조건부분포: fXYf_{X|Y}
  • 사후확률: fXY(ab)f_{X|Y}(a|b)
  • 사전확률: fX(a)f_{X}(a)
  • 유도
    fXY(ab)f_{X|Y}(a|b) = fYX(ba)fX(a)fYX(bx)fX(x)dx\frac {f_{Y|X}(b|a)f_{X}(a)} {\int_{-\infty}^{\infty}f_{Y|X}(b|x)f_{X}(x)dx}

2) 독립성

  • 조건에 관계없이 분포가 변하지 않습니다.

    fYX(ba)f_{Y|X}(b|a) = fY(b)f_{Y}(b)
    fX,Y(a,b)f_{X, Y}(a, b) = fX(a)fY(b)f_{X}(a)*f_{Y}(b)


4.4 임의 영역의 확률 (균등분포, 변수 반환)

  • 확률밀도 함수의 면적의 합은 1이며 면적에서 벗어날 수 없기에 1범위\frac {1} {범위}의 값을 가집니다.

4.5 기댓값과 분산, 표준편차

  • 기댓값
    - 이산확률 변수와 유사한 진행과정이며 확률값*발생횟수를 통헤 기댓값을 구합니다.

  • 분산

    V[X] = E[(X-u)^{2}]

  • 표준편차

    σ\sigma = V[X]\surd V[X]


4.6 정규분포와 중심극한 정리

1) 표준정규분포(= 가우스 분포)

  • 일반 정규분포와의 차이는 평균과 표준편차에 따른 스케일링을 진행하여 평균이 0, 분산이 1이 되도록 합니다.

2) 일반정규분포

  • 표준정규분포를 이동하거나 신축하여 얻을 수 있습니다.
  • 표준화하기 이전의 정규분포 형태입니다.

표준 정규분포와 일반정규 분포는 평균을 중심으로 종모양의 좌우 대칭입니다.
정규분포로 환산하여 범위가 다른 두 분포를 비교할 때 주로 사용합니다.

3) 중심극한정리

  • 현실 세계에서 정규분포를 벗어나는 값은 나타나기 어렵습니다.
  • 아주 일부 벗어나는 값이 존재하더라도 임곗값을 넘어가지 않는다면 표본집단의 분포가 모집단의 분포와 유사하다고 보고 있습니다.

큰 수의 법칙과의 차이점

  • '큰 수의 법칙'은 추출한 데이터의 크기가 커질수록 모집단의 평균과 같아집니다.
  • '중심극한정리'는 모집단이 어떠한 분포든지 표본을 추출하고 크기가 클수록 정규 분포의 형태에 가까워집니다.

0개의 댓글