확률분포
확률분포
- 확률분포는 확률변수가 특정 값을 가질 확률을 나타내는 함수이며 확률변수가 어떤 종류의 값을 가지고 있는가에 따라서 이산 확률분포와 연속 확률분포로 분류된다.
- 확률분포는 통계량을 분석하여 통계적 의사결정을 내릴 수 있는 기준을 제시한다.
확률분포의 식
0≤P(xi)≤1
i∑nP(xi)=1
확률분포의 종류
- 이산확률분포
- 일양균등분포, 이항분포, 포아송분포, 초기하분포, 기하분포
- 연속확률분포
- 평균분포 : 정규분포, t-분포
- 분산분포 : X2분포, f-분포
확률변수
- 일정한 확률을 가지고 발생하는 사건에 여러 가지 값을 부여한 변수
- 표본공간에 있는 각 원소에 대응하는 규칙 혹은 함수
확률변수와 확률분포의 관계
- 확률변수는 모든 원소를 실수로 대응하는 함수, 확률분포는 확률변수로 얻어진 실수를 확률 값으로 변환하는 함수이다.
- 확률변수와 확률분포를 사용해서 실행결과를 실수로 변환할 수도 있고 발생확률로 변환할 수도 있다.
확률변수의 종류
- 이산확률변수
- 정수로 특정한 수치만을 가지고 있다.
- 방문자수, 교통사고 건수 등
- 연속확률변수
- 실수로 어떤 범위의 연속 값을 가질 수 있는 변수
- 몸무게, 체온, 출/퇴근 시간 등
이산확률분포
- 확률분포가 셀수 있는 붙포
- 이산확률분포는 확률변수가 0,1,2와 같이 이산적인 형태를 이루는 분포
- 로또 1등으로 당첨될 확률, 1남 9녀가 될 확률 등을 계산
이산확률분포 종류
- 이산균등분포
- 포아송분포
- 베르누이분포
- 기하분포
- 초기하분포
- 이항분포
- 음의 이항분포
- 다항분포
이산확률변수
- 특정수치만을 가지고 있는 확률변수로 정수로 표현
베르누이분포
- 베르누이분포는 0과 1의 두 가지 결과 값만을 가지고 서로 독립적으로 '시행'된다.
성공 확률을 P라고 하면 실패 확률은 1−P이다.
P(x)={P(x=1)1−P(x=0)
위 식을 아래와 같이 간략하게 표현이 가능하다.
P(x)=Px×(1−P)1−x
베르누이 분포의 x는 0과 1밖에 없으므로 아래와 같이 대입하면
P(0)=P0×(1−P)1−0=1−P
P(1)=P1×(1−P)0=P
위와 같다.
이제 위 공식을 이용하여 기대값과 분산을 구해보자
기대값
E(x)=i=1∑2(xi)P(xi)
x는 0과 1뿐이다.
i=1∑2(xi)P(xi)=0×P(0)+1×P(1)=P
분산
V(x)=E(x2)−{E(x)}2=∑x2P(x)−P2
x는 다시 0과 1뿐이므로
0×P(0)+1×P(1)−P2=P−P2=P(1−P)
V(x)=P(1−P)
위와 같이 된다.
이항분포
- 이항분포는 베르누이 과정의 시행을 반복한다.
- 이전의 시행 결과에 독립적이므로 영향을 주지 않는다
- 각 시행의 성공 혹은 실패의 확률은 처음부터 끝까지 변하지 않는다.
- 따라서 한번 시행의 이항분포를 베르누이분포라고 한다.
포아송분포
초기하분포
- 주어진 횟수만큼 반복되는 경우 성공할 횟수를 예측한다
- 초기하분포에서는 과거의 결과는 현재, 미래의 결과에 영향을 미치는 것으로 분석하지만, 이항확률분포는 연속되는 시행이 독립적이다.
- 초기하분포는 시행마다 발생할 결과가 이항분포처럼 두 가지만 있지만 유한 모집단에서 비복원 추출되기 때분에 베르누이 시행조건에 만족되지 않는 경우 사용되는 확률분포이다.
- 베르누이 과정을 따르지 않는다.
모집단 크기 M에서 표본 크기 n을 뽑는 확률 nCr
우리가 원하는 모집단의 값중 k개 중에 표본 x개에 들어갈 확률은 kCx
원하는 원소가 k개 들어있고 크기가 M인 모집단에서 크기가 n인 표본을 뽑을 때 원하는 원소가 x개 들어있을 경우의 수 : kCx×M−kCn−x
확률을 구하면 P(x)=mCnkCx×M−kCn−x
x : 변수
n,m,k : 상수
연속확률분포
- 연속확률변수는 특정 지역의 연간 강수량이나 임의로 선택된 사람의 키와 같은 연속된 실수 구간의 값을 취할 수 있는 확률변수이다.
- 연속확률변수의 값에 대응하는 확률을 표시
- 확률 밀도 함수를 사용해서 분포를 표현할 수 있다.
- 관측 값이 연속적인 값을 가지고 있는 확률변수
- 정규분포, 연속균등분포, t-분포, f-분포, 카이제곱 분포, 감마분포
연속확률변수
- 어떤 범위에서 연속적인 값을 가질 수 있는 실수
- 연속확률변수의 자료는 각각 고유의 값을 가진다.
- 몸무게, 체온, 수명 등의 변수가 있다. P(58.9≤X≤75.2)
정규분포
- 통계이론에서 중요한 확률분포로 샘플을 추출해서 모집단의 모수를 예측할 때 사용
- 모집단의 분포를 정규분포로 가정하고 통계분석을 수행
- 정규분포는 평균을 중심으로 좌우대칭 구조를 가지고 있는 확률분포
- 적분을 사용하면 복잡해지므로 측정단위와 관계없이 자료를 표준화시켜서 사용한다.
표준확률변수
- 표준 확률변수는 측정단위와 관계없이 표준화시킨다.
- 평균으로부터 떨어진 거리를 계산할 수가 있다.
통계적 추론
통계적 추론방법
- 통계적 추론이란 우리가 알지 못하는 대상에 대해서 통계적으로 접근하여 알아가는 과정
통계적 추론의 예시
- 스마트폰을 가장 많이 사용하는 시간?
- 스마트폰을 남자와 여자 중에 누가 더 많이 사용할까?
- 거주지와 스마트폰 가격은 관계가 있을까?
- 급여수준과 사용하는 스마트폰의 종류는 관계가 있을까?
모수적 추론과 비모수적 추론
각 추론에 대해 확실히 구분하고 넘어가자
모수적 추론
- 모수적 추론이란 어떤 대상인 모집단의 분포가 어떤 분포일 것이라고 가정하고 모수에 대해서 추론하는 방법
- 예를 들어 모집단이 정규분포를 따른다면 분포의 모수는 평균과 분산일 것
- 따라서 모수적 추론의 가정은 최종 결론에 아주 큰 영향을 준다.
- 모수적 추론은 정규분포, 이항분포, 포아송분포 등을 가정하고 있다.
비모수적 추론
- 비모수적 추론은 모집단에 대해서 어떤 가정도 하지 않고 추론을 하는 것
- 모집단을 몇 개의 모수로 결정하기 어려워 많은 모수를 사용해야 할때 비모수적 추론을 한다.
비모수적 추론 사용
- 정규분포를 따르지 않는 것이 증명되었다.
- 표본의 수가 적어서 정규분포를 가정할 수가 없다.
- 모집단에 대한 아무런 정보가 없다.
- 비모수적 추론은 정규분포를 가정하지 않기 때문에 평균과 분산이 없고 평균 값의 차이, 신뢰구간을 구할 수가 없다.
- 따라서 비모수적 추론은 해석이 복잡해지고 실제 값을 사용하기 보다 부호나 순위 등의 형태를 사용하는 경우가 많다.
베이지안 추론
- 베이지안 확률을 사용해서 추론하는 방법으로 모수적 추론에서 가정한 부노의 모수로 추론한다.
- 실험을 통해서 정보를 획득하고 베이즈 정리를 사용하여 가설 확률을 수정하는 통계적 추론방법이다.
- 인공지능에서 사전 데이터로부터 학습된 지식을 추가 데이터로 업데이트 할 때 사용된다.
① 베이즈 정리
위의 식을 간단히 나를 좋아할 확률을 A, 나에게 초콜렛을 줄 확률 또는 상황을 B라고 하면
다음과 같은 식을 도출 할 수 있다.
P(A∣B)=P(B)P(B∣A)P(A)
② 베이즈 정리를 사용한 베이지안 추론
- P(A)는 사전확률이고 사건 A가 발생할 확률
- P(B)는 B가 발생할 확률
- P(B|A)는 사건 A가 발생 할때 B가 발생할 조건부 확률
- 나를 좋아하는 사람이 나에게 초콜렛을 줄 확률
- P(B|A)와 P(A), P(B)를 통해서 P(A|B)를 얻을 수 있으면 P(A|B)는 사후 확률이다.
통계적 추론의 목적과 방법에 따른 분류
- 통계적 추론은 추정과 가설점정으로 구분되고 추정방법은 점추정과 구간추정이 있다.
점추정
- 미지의 모수에 대해 표본의 통계량을 사용해서 어떤 값으로 추정하는 과정
- 모집단의 특성을 단일 값으로 추정하는 방법
- 가장 대표적인 예가 표본평균과 표본분산이다.
- 모집단의 평균이 표본평균과 일치하는 세타를 찾는 방법으로 적률방법이라고 한다.
- 모평균의 추정량이 표본평균이 된다.
구간추정
- 모수의 값이 포함될 것이라 생각되는 범위를 통해 모수를 측정한다.
- 모수의 구간 값을 계산해서 모수가 특정 구간에 포함될 것을 확률로 분속한다.
- 신뢰수준으로 95%, 97% 등으로 확률로 나타난다.
가설검정
- 모수에 대한 가설을 세우고 해당 가설의 옳고 그름을 판단
- 가설에 대한 검정을 통해서 기각할 것인지 채택할 것인지 결정
- 검정통계량은 귀무가설을 기각하고 대립가설을 채택할지 아니면 귀무가설을 채택하고 대립가설을 기각할 것인지에 대한 통계량이다.