[Day10] 확률

이석영·2020년 12월 10일

확률통계

Programmers

목록 보기

11/47

확률(probability)

확률의 덧셈법칙

아래와 같이 사건 A나(or조건) B가 일어날 확률을 구하려면 각각의 확률을 더하고 교집합이 되는 확률을 빼주어야한다. 이때 교집합이 없다면 A와 B를 서로 배반(mutually exclusive)한다고한다.

조건부 확률(conditional probability)

어떤 사건 A가 일어났을 때 다른 사건 B가 일어날 확률

확률의 곱셈법칙

어떤 사건 A와 B가 동시에 일어날 확률은 A가 일어났을 때 B가 일어날 확률과 A의 확률의 곱이된다.
이때 사건 A와 B가 서로 영향을 주지않을 때 두 사건을 독립이라고하며 두 확률의 교집합은 곱과 같다.

확률분포

이항분포

베르누이 시행(Bernoulli trial)

성공/실패 두가지만 가지는 실험(ex 동전던지기)
연속이아닌 이산확률의 시행
성공확률 p

확률변수 X

n번의 베르누이 시행에서 성공 횟수를 의미
이항확률변수라고 함

이항분포(binomial distribution)

이항확률변수의 확률분포

정규분포

연속확률 변수의 확률분포
확률밀도함수 (probability density function : f(x))
- 확률변수 X의 분포를 나타내는 함수로 확률변수 X가 구간 [a, b]에 포함될 확률을 의미한다.
- f(x)가 x의 확률을 제공해주는 것이 아니다.
정규분포의 확률밀도함수
- 표준정규분포 : 평균이 0, 표준편차가 1인 정규분포
아래의 변환을 통해 정규분포의 확률변수를 표준정규확률변수 Z로 변환할 수 있다.

포아송 분포(Poisson distribution)

일정한 시간단위 또는 공간단위에서 발생하는 이벤트의 수의 이산확률분포
보통 낮은 확률의 분포다.
- 웹사이트 방문하는 방문자 수, 전기선 100m당 발생하는 결함 수, 쇼핑몰 구매고객 수
포아송 분포의 확률분포함수(확률질량함수)는 아래와 같다.

지수분포(exponential distribution)

포아송 분포를 따르는 어떤 사건이 발생할 때 어느 한 시점으로부터 이 사건이 발생할 때까지 걸리는 시간에 대한 확률 분포
예를들어 웹사이트 시간당 평균접속자가 3명이라할 때 1명의 접속자가 발생할 때까지 걸리는 시간은 1/3이다.

from scipy import stats
## 이항분포 : 3개를 뽑을  때 적어도 하나 이상의 성공이 발생할 확률, 성공확률은 0.2
1- stats.binom.cdf(0, n=3, p=0.2)
## X~N(4, 3^2)일때 P[X <=4]=?
stats.norm.cdf(4, loc=4, scale=3)
## X~N(4,3^2)일때 P[4 <= X <= 7] =?
stats.norm.cdf(7, loc=4, scale=3) - stats.norm.cdf(4, loc=4, scale=3)
## 포아송 분포 : 웹사이트 시간당 평균접속자 3명, 1시간 동안 접속자 수가 2명 이하일 확률은?
stats.poisson.cdf(2, mu=3)
## 지수분포 : 시간당 3명 접속, 30분 이내에 올 확률?
stats.expon.cdf(0.5, scale=1/3)