ADsP - 통계적 추론

이강민·2022년 10월 10일
0

ADsP

목록 보기
12/19
post-thumbnail

확률분포

확률분포

  • 확률분포는 확률변수가 특정 값을 가질 확률을 나타내는 함수이며 확률변수가 어떤 종류의 값을 가지고 있는가에 따라서 이산 확률분포와 연속 확률분포로 분류된다.
  • 확률분포는 통계량을 분석하여 통계적 의사결정을 내릴 수 있는 기준을 제시한다.

확률분포의 식

0P(xi)10\leq P(x_i) \leq 1
inP(xi)=1\displaystyle\sum_{i}^{n} P(x_i) = 1

확률분포의 종류

  • 이산확률분포
    • 일양균등분포, 이항분포, 포아송분포, 초기하분포, 기하분포
  • 연속확률분포
    • 평균분포 : 정규분포, t-분포
    • 분산분포 : X2{X^2}분포, f-분포

      확률변수

  • 일정한 확률을 가지고 발생하는 사건에 여러 가지 값을 부여한 변수
  • 표본공간에 있는 각 원소에 대응하는 규칙 혹은 함수

확률변수와 확률분포의 관계

  • 확률변수는 모든 원소를 실수로 대응하는 함수, 확률분포는 확률변수로 얻어진 실수를 확률 값으로 변환하는 함수이다.
  • 확률변수와 확률분포를 사용해서 실행결과를 실수로 변환할 수도 있고 발생확률로 변환할 수도 있다.

확률변수의 종류

  • 이산확률변수
    • 정수로 특정한 수치만을 가지고 있다.
    • 방문자수, 교통사고 건수 등
  • 연속확률변수
    • 실수로 어떤 범위의 연속 값을 가질 수 있는 변수
    • 몸무게, 체온, 출/퇴근 시간 등

이산확률분포

  • 확률분포가 셀수 있는 붙포
  • 이산확률분포는 확률변수가 0,1,2와 같이 이산적인 형태를 이루는 분포
  • 로또 1등으로 당첨될 확률, 1남 9녀가 될 확률 등을 계산

이산확률분포 종류

  • 이산균등분포
  • 포아송분포
  • 베르누이분포
  • 기하분포
  • 초기하분포
  • 이항분포
  • 음의 이항분포
  • 다항분포

이산확률변수

  • 특정수치만을 가지고 있는 확률변수로 정수로 표현

베르누이분포

  • 베르누이분포는 0과 1의 두 가지 결과 값만을 가지고 서로 독립적으로 '시행'된다.

    성공 확률을 PP라고 하면 실패 확률은 1P1-P이다.
    P(x)={P(x=1)1P(x=0)P(x) = \begin{cases}P(x=1) \\1-P(x=0)\end{cases}
    위 식을 아래와 같이 간략하게 표현이 가능하다.
    P(x)=Px×(1P)1xP(x) = P^x \times (1-P)^{1-x}
    베르누이 분포의 x는 0과 1밖에 없으므로 아래와 같이 대입하면
    P(0)=P0×(1P)10=1PP(0) = P^0 \times (1-P)^{1-0} =1-P
    P(1)=P1×(1P)0=PP(1) = P^1 \times (1-P)^{0} = P
    위와 같다.

이제 위 공식을 이용하여 기대값과 분산을 구해보자
기대값
E(x)=i=12(xi)P(xi)E(x) = \displaystyle\sum^2_{i=1}(x_i)P(x_i)
x는 0과 1뿐이다.
i=12(xi)P(xi)=0×P(0)+1×P(1)=P\displaystyle\sum^2_{i=1}(x_i)P(x_i) = 0\times P(0) + 1\times P(1) = P

분산
V(x)=E(x2){E(x)}2=x2P(x)P2V(x) = E(x^2) - \lbrace E(x)\rbrace^2 = \sum x^2P(x) - P^2
x는 다시 0과 1뿐이므로
0×P(0)+1×P(1)P2=PP2=P(1P)0 \times P(0) + 1\times P(1) -P^2 = P - P^2 = P(1-P)
V(x)=P(1P)V(x) = P(1-P)
위와 같이 된다.

이항분포

  • 이항분포는 베르누이 과정의 시행을 반복한다.
  • 이전의 시행 결과에 독립적이므로 영향을 주지 않는다
  • 각 시행의 성공 혹은 실패의 확률은 처음부터 끝까지 변하지 않는다.
  • 따라서 한번 시행의 이항분포를 베르누이분포라고 한다.

포아송분포

  • 시메옹 포아송이 발견한 분포

  • 이항분포의 특수한 경우, 시행 갯수 n이 커지고 발생확률 p가 작아지는 분포를 푸아송분포라고 한다.
    λ=np\lambda = np(n, 시행횟수/ p, 발생할 확률)

  • 포아송분포 예시

    • 하루동안 길냥이를 마주칠 횟수
    • 책에서 발생되는 오타의 수
    • 치킨을 먹다가 머리카락을 발견한 수

초기하분포

  • 주어진 횟수만큼 반복되는 경우 성공할 횟수를 예측한다
  • 초기하분포에서는 과거의 결과는 현재, 미래의 결과에 영향을 미치는 것으로 분석하지만, 이항확률분포는 연속되는 시행이 독립적이다.
  • 초기하분포는 시행마다 발생할 결과가 이항분포처럼 두 가지만 있지만 유한 모집단에서 비복원 추출되기 때분에 베르누이 시행조건에 만족되지 않는 경우 사용되는 확률분포이다.
  • 베르누이 과정을 따르지 않는다.

모집단 크기 M에서 표본 크기 n을 뽑는 확률 nCr_{n}C_{r}
우리가 원하는 모집단의 값중 k개 중에 표본 x개에 들어갈 확률은 kCx_{k}C_{x}
원하는 원소가 k개 들어있고 크기가 M인 모집단에서 크기가 n인 표본을 뽑을 때 원하는 원소가 x개 들어있을 경우의 수 : kCx×MkCnx_{k}C_{x}\times _{M-k}C_{n-x}

확률을 구하면 P(x)=kCx×MkCnxmCnP(x) = \frac{_{k}C_{x}\times _{M-k}C_{n-x}}{_{m}C_{n} }
xx : 변수
n,m,kn, m, k : 상수

연속확률분포

  • 연속확률변수는 특정 지역의 연간 강수량이나 임의로 선택된 사람의 키와 같은 연속된 실수 구간의 값을 취할 수 있는 확률변수이다.
  • 연속확률변수의 값에 대응하는 확률을 표시
  • 확률 밀도 함수를 사용해서 분포를 표현할 수 있다.
  • 관측 값이 연속적인 값을 가지고 있는 확률변수
  • 정규분포, 연속균등분포, t-분포, f-분포, 카이제곱 분포, 감마분포

연속확률변수

  • 어떤 범위에서 연속적인 값을 가질 수 있는 실수
  • 연속확률변수의 자료는 각각 고유의 값을 가진다.
  • 몸무게, 체온, 수명 등의 변수가 있다. P(58.9X75.2)P(58.9 \le X \le 75.2)

정규분포

  • 통계이론에서 중요한 확률분포로 샘플을 추출해서 모집단의 모수를 예측할 때 사용
  • 모집단의 분포를 정규분포로 가정하고 통계분석을 수행
  • 정규분포는 평균을 중심으로 좌우대칭 구조를 가지고 있는 확률분포
  • 적분을 사용하면 복잡해지므로 측정단위와 관계없이 자료를 표준화시켜서 사용한다.

표준확률변수

  • 표준 확률변수는 측정단위와 관계없이 표준화시킨다.
  • 평균으로부터 떨어진 거리를 계산할 수가 있다.

통계적 추론

통계적 추론방법

  • 통계적 추론이란 우리가 알지 못하는 대상에 대해서 통계적으로 접근하여 알아가는 과정

통계적 추론의 예시

  • 스마트폰을 가장 많이 사용하는 시간?
  • 스마트폰을 남자와 여자 중에 누가 더 많이 사용할까?
  • 거주지와 스마트폰 가격은 관계가 있을까?
  • 급여수준과 사용하는 스마트폰의 종류는 관계가 있을까?

모수적 추론과 비모수적 추론

각 추론에 대해 확실히 구분하고 넘어가자

모수적 추론

  • 모수적 추론이란 어떤 대상인 모집단의 분포가 어떤 분포일 것이라고 가정하고 모수에 대해서 추론하는 방법
  • 예를 들어 모집단이 정규분포를 따른다면 분포의 모수는 평균과 분산일 것
  • 따라서 모수적 추론의 가정은 최종 결론에 아주 큰 영향을 준다.
  • 모수적 추론은 정규분포, 이항분포, 포아송분포 등을 가정하고 있다.

비모수적 추론

  • 비모수적 추론은 모집단에 대해서 어떤 가정도 하지 않고 추론을 하는 것
  • 모집단을 몇 개의 모수로 결정하기 어려워 많은 모수를 사용해야 할때 비모수적 추론을 한다.

비모수적 추론 사용

  • 정규분포를 따르지 않는 것이 증명되었다.
  • 표본의 수가 적어서 정규분포를 가정할 수가 없다.
  • 모집단에 대한 아무런 정보가 없다.
  • 비모수적 추론은 정규분포를 가정하지 않기 때문에 평균과 분산이 없고 평균 값의 차이, 신뢰구간을 구할 수가 없다.
  • 따라서 비모수적 추론은 해석이 복잡해지고 실제 값을 사용하기 보다 부호나 순위 등의 형태를 사용하는 경우가 많다.

베이지안 추론

  • 베이지안 확률을 사용해서 추론하는 방법으로 모수적 추론에서 가정한 부노의 모수로 추론한다.
  • 실험을 통해서 정보를 획득하고 베이즈 정리를 사용하여 가설 확률을 수정하는 통계적 추론방법이다.
  • 인공지능에서 사전 데이터로부터 학습된 지식을 추가 데이터로 업데이트 할 때 사용된다.

① 베이즈 정리

위의 식을 간단히 나를 좋아할 확률을 A, 나에게 초콜렛을 줄 확률 또는 상황을 B라고 하면
다음과 같은 식을 도출 할 수 있다.

P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)}

② 베이즈 정리를 사용한 베이지안 추론

  • P(A)는 사전확률이고 사건 A가 발생할 확률
  • P(B)는 B가 발생할 확률
  • P(B|A)는 사건 A가 발생 할때 B가 발생할 조건부 확률
    • 나를 좋아하는 사람이 나에게 초콜렛을 줄 확률
  • P(B|A)와 P(A), P(B)를 통해서 P(A|B)를 얻을 수 있으면 P(A|B)는 사후 확률이다.

통계적 추론의 목적과 방법에 따른 분류

업로드중..

  • 통계적 추론은 추정과 가설점정으로 구분되고 추정방법은 점추정과 구간추정이 있다.

점추정

  • 미지의 모수에 대해 표본의 통계량을 사용해서 어떤 값으로 추정하는 과정
  • 모집단의 특성을 단일 값으로 추정하는 방법
  • 가장 대표적인 예가 표본평균과 표본분산이다.
  • 모집단의 평균이 표본평균과 일치하는 세타를 찾는 방법으로 적률방법이라고 한다.
  • 모평균의 추정량이 표본평균이 된다.

구간추정

  • 모수의 값이 포함될 것이라 생각되는 범위를 통해 모수를 측정한다.
  • 모수의 구간 값을 계산해서 모수가 특정 구간에 포함될 것을 확률로 분속한다.
  • 신뢰수준으로 95%, 97% 등으로 확률로 나타난다.

가설검정

  • 모수에 대한 가설을 세우고 해당 가설의 옳고 그름을 판단
  • 가설에 대한 검정을 통해서 기각할 것인지 채택할 것인지 결정
  • 검정통계량은 귀무가설을 기각하고 대립가설을 채택할지 아니면 귀무가설을 채택하고 대립가설을 기각할 것인지에 대한 통계량이다.
profile
NullpointException

0개의 댓글