확률분포

YongUk·2022년 9월 21일

Statistics

목록 보기

6/15

확률변수

표본공간의 각 결과에 실수 값을 대응시키는 함수
흔히 X,Y,Z를 사용하여 나타냄
확률 변수는 크게 이산확률변수와 연속확률변수로 나뉜다.
1. 이산확률변수 : 확률변수가 가질 수 있는 값을 셀 수 있는경우
2. 연속확률변수 : 확률변수가 어느 구간에 속하는 모든 값을 가질 수 있는 경우

확률분포

확률변수가 가질 수 있는 값과 그에 대응하는 확률을 나타낸 것

확률질량함수(pmf)

이산확률변수에서 특정값에 대한 확률을 나타내는 함수이다
확률 히스토그램으로 나타낸다

누적분포함수(cdf)

누적분포함수 : 이산확률 변수 X가 가질 수 있는 값 x보다 작거나 같은 누적확률값을 대응시키는 함수
성질 : 비감소함수, 우연속함수이다. 좌 무한대극한은 0이고 우 무한대극한은 1이다

기댓값 E(x)

쉽게 어떤 확률적 사건에 대한 평균 (모평균으로 사용가능)
확률을 가중치로 한 확률변수 X의 중심위치(평균)
표본평균의 평균은 가중치가 1/n으로 동일한 반면 확률변수의 평균에서는 확률변수 x의 확률을 가중치로 하여 구해야함

중앙값

$P(X\leq m_0) \geq 0.5$ $and$ $P(X\geq m_0) \geq 0.5$ 를 만족하는 $m_0$

분산, 표준편차

표본분산과 동일하지만 아까말했듯이 가중치를 1/n이 아닌 각각의 확률로 두어야함
표본분산 : $\frac{\sum(편차)^2}{n-1}$
확률변수의 분산 : $\sum(편차)^2\times 각각의 확률$
표준편차는 똑같이 루트를 씌워준다
분산의 간편 계산식 : $Var(X) =E(X^2)-(E(X))^2$

결합확률분포

이때까지 나온 것은 확률변수가 하나일때의 경우이고 보통 확률변수를 여러개 쓰는 경우가 더 많다. 한가지 특징만을 비교하는 경우보다 여러가지 특징을 비교하는 경우가 더 많다는 뜻이다.

결합확률분포

이산형 결합분포
- $f(x_i,y_i) = P(X=x_i,Y=y_i)$ 로 나타낸다
- $f(x_i) = P(X=x_i)$ 와 비교했을 때 위 확률은 두개의 변수를 모두만족하는 확률임을 알수있다
- 결합확률질량함수라 부른다
확률변수 X,Y가 독립일 경우 $f(x_i,y_i)=f(x_i)\times f(y_i)$

주변확률분포

주변확률분포를 사용하는 경우는 결합확률분포라는 가정하에 사용해야한다
ex) 안경쓴 남자, 안경안쓴 남자, 안경쓴 여자, 안경안쓴 여자의 결합확률분포가 있다고 가정하면 여기서 그냥 남자만 구하거나 안경쓴 사람만 구하는 경우에 사용한다.
남자라는 변수를 고정시키고 안경쓴, 안경안쓴에 대한 경우를 모두 더하는 것이다. 이를 수식화하면
$P_x(x_i)=\sum_{j}P(X=x_i,Y=y_j)=\sum_{j}f(x_i,y_j)$
구하고자하는 한 확률변수를 고정시키고 다른 한 변수만 바꾸면 모두 더한다.

조건부확률분포(번외)

조건부확률과 동일하다.
확률변수 X가 발생했다는 전제하에 확률변수 X,Y가 발생할 확률이므로 수식화하면
$P_{Y|X}(y_j|x_i)=\frac{P(Y=y_i|X=x_i)}{P(X=x_i)}=\frac{P_{X,Y}(x_i,y_j)}{P_X(x_i)}$

결합누적분포

위의 누적분포함수와 동일하지만 여러개의 확률변수를 고려해주어야함
ex) $F(2,3)=P(X \leq2,Y\leq3)$

공분산

앞선 다변수 파트에서도 나왔지만 확률변수들이 어떤 관계를 가지며 변화하는지 알 수 있게하는 척도이다
$Cov(X,Y) = E(XY)-E(X)E(Y)$
$E(XY) = \sum_i\sum_jx_iy_jf(x_i,y_j)$
$E(X),E(Y)$ 는 결합확률분포를 쓰면 편한다
성질 : $Cov(aX,bY) = abCov(X,Y)$
공분산은 그 자체의 값만으로는 연관성 강도를 알수가 없다. 단위가 다르기 때문에 자료에 따라 공분산의 연관성이 없어도 클수도 있고 있어도 작을 수 있기 때문이다.

상관계수

앞선 공분산의 한계를 극복하기위해 상관계수를 사용한다
확률변수의 단위에 영향을 받지 않는 측도이다
확률변수 사이의 선형 연관성을 측정할 수 있게 한다.
$Corr(X,Y)=\frac{cov(X,Y)}{\partial_x\partial_y}= p$ (시그마)
$|p|$ 가 1에 가까울 수록 선형관계가 강함
X,Y가 독립일경우 $Corr(X,Y)=0$ / $Corr(X,Y)=0$ 이 독립은 아님(역은 성립X)

분산의 합과 차

$Var(X+Y) = Var(X)+Var(Y)+2cov(X,Y)$
$Var(X-Y) = Var(X)+Var(Y)-2cov(X,Y)$
$Var(aX+bY) = a^2Var(X)+b^2Var(Y)+2abcov(X,Y)$
독립일 경우 $Var(X+Y) = Var(X)+Var(Y)$ because $Cov(X,Y)=0$

이전 포스트

확률

다음 포스트

이항분포와 그에 관련된 분포들

0개의 댓글