확률분포

YongUk·2022년 9월 21일
0

Statistics

목록 보기
6/15
post-thumbnail

확률변수


  • 표본공간의 각 결과에 실수 값을 대응시키는 함수
  • 흔히 X,Y,Z를 사용하여 나타냄
  • 확률 변수는 크게 이산확률변수연속확률변수로 나뉜다.
    1. 이산확률변수 : 확률변수가 가질 수 있는 값을 셀 수 있는경우
    2. 연속확률변수 : 확률변수가 어느 구간에 속하는 모든 값을 가질 수 있는 경우

확률분포


  • 확률변수가 가질 수 있는 값과 그에 대응하는 확률을 나타낸 것

확률질량함수(pmf)


  • 이산확률변수에서 특정값에 대한 확률을 나타내는 함수이다
  • 확률 히스토그램으로 나타낸다

누적분포함수(cdf)


  • 누적분포함수 : 이산확률 변수 X가 가질 수 있는 값 x보다 작거나 같은 누적확률값을 대응시키는 함수
  • 성질 : 비감소함수, 우연속함수이다. 좌 무한대극한은 0이고 우 무한대극한은 1이다

기댓값 E(x)


  • 쉽게 어떤 확률적 사건에 대한 평균 (모평균으로 사용가능)
  • 확률을 가중치로 한 확률변수 X의 중심위치(평균)
  • 표본평균의 평균은 가중치가 1/n으로 동일한 반면 확률변수의 평균에서는 확률변수 x의 확률을 가중치로 하여 구해야함

중앙값


  • P(Xm0)0.5P(X\leq m_0) \geq 0.5 andand P(Xm0)0.5P(X\geq m_0) \geq 0.5를 만족하는 m0m_0

분산, 표준편차


  • 표본분산과 동일하지만 아까말했듯이 가중치를 1/n이 아닌 각각의 확률로 두어야함
  • 표본분산 : (편차)2n1\frac{\sum(편차)^2}{n-1}
  • 확률변수의 분산 : (편차)2×각각의확률\sum(편차)^2\times 각각의 확률
  • 표준편차는 똑같이 루트를 씌워준다
  • 분산의 간편 계산식 : Var(X)=E(X2)(E(X))2Var(X) =E(X^2)-(E(X))^2

결합확률분포


  • 이때까지 나온 것은 확률변수가 하나일때의 경우이고 보통 확률변수를 여러개 쓰는 경우가 더 많다. 한가지 특징만을 비교하는 경우보다 여러가지 특징을 비교하는 경우가 더 많다는 뜻이다.

결합확률분포


  • 이산형 결합분포
    • f(xi,yi)=P(X=xi,Y=yi)f(x_i,y_i) = P(X=x_i,Y=y_i)로 나타낸다
    • f(xi)=P(X=xi)f(x_i) = P(X=x_i) 와 비교했을 때 위 확률은 두개의 변수를 모두만족하는 확률임을 알수있다
    • 결합확률질량함수라 부른다
  • 확률변수 X,Y가 독립일 경우 f(xi,yi)=f(xi)×f(yi)f(x_i,y_i)=f(x_i)\times f(y_i)

주변확률분포


  • 주변확률분포를 사용하는 경우는 결합확률분포라는 가정하에 사용해야한다
  • ex) 안경쓴 남자, 안경안쓴 남자, 안경쓴 여자, 안경안쓴 여자의 결합확률분포가 있다고 가정하면 여기서 그냥 남자만 구하거나 안경쓴 사람만 구하는 경우에 사용한다.
  • 남자라는 변수를 고정시키고 안경쓴, 안경안쓴에 대한 경우를 모두 더하는 것이다. 이를 수식화하면
  • Px(xi)=jP(X=xi,Y=yj)=jf(xi,yj)P_x(x_i)=\sum_{j}P(X=x_i,Y=y_j)=\sum_{j}f(x_i,y_j)
  • 구하고자하는 한 확률변수를 고정시키고 다른 한 변수만 바꾸면 모두 더한다.

조건부확률분포(번외)


  • 조건부확률과 동일하다.
  • 확률변수 X가 발생했다는 전제하에 확률변수 X,Y가 발생할 확률이므로 수식화하면
  • PYX(yjxi)=P(Y=yiX=xi)P(X=xi)=PX,Y(xi,yj)PX(xi)P_{Y|X}(y_j|x_i)=\frac{P(Y=y_i|X=x_i)}{P(X=x_i)}=\frac{P_{X,Y}(x_i,y_j)}{P_X(x_i)}

결합누적분포


  • 위의 누적분포함수와 동일하지만 여러개의 확률변수를 고려해주어야함
  • ex) F(2,3)=P(X2,Y3)F(2,3)=P(X \leq2,Y\leq3)

공분산


  • 앞선 다변수 파트에서도 나왔지만 확률변수들이 어떤 관계를 가지며 변화하는지 알 수 있게하는 척도이다
  • Cov(X,Y)=E(XY)E(X)E(Y)Cov(X,Y) = E(XY)-E(X)E(Y)
  • E(XY)=ijxiyjf(xi,yj)E(XY) = \sum_i\sum_jx_iy_jf(x_i,y_j)
  • E(X),E(Y)E(X),E(Y)는 결합확률분포를 쓰면 편한다
  • 성질 : Cov(aX,bY)=abCov(X,Y)Cov(aX,bY) = abCov(X,Y)
  • 공분산은 그 자체의 값만으로는 연관성 강도를 알수가 없다. 단위가 다르기 때문에 자료에 따라 공분산의 연관성이 없어도 클수도 있고 있어도 작을 수 있기 때문이다.

상관계수


  • 앞선 공분산의 한계를 극복하기위해 상관계수를 사용한다
  • 확률변수의 단위에 영향을 받지 않는 측도이다
  • 확률변수 사이의 선형 연관성을 측정할 수 있게 한다.
  • Corr(X,Y)=cov(X,Y)xy=pCorr(X,Y)=\frac{cov(X,Y)}{\partial_x\partial_y}= p(시그마)
  • p|p|가 1에 가까울 수록 선형관계가 강함
  • X,Y가 독립일경우 Corr(X,Y)=0Corr(X,Y)=0 / Corr(X,Y)=0Corr(X,Y)=0이 독립은 아님(역은 성립X)

분산의 합과 차

  • Var(X+Y)=Var(X)+Var(Y)+2cov(X,Y)Var(X+Y) = Var(X)+Var(Y)+2cov(X,Y)
  • Var(XY)=Var(X)+Var(Y)2cov(X,Y)Var(X-Y) = Var(X)+Var(Y)-2cov(X,Y)
  • Var(aX+bY)=a2Var(X)+b2Var(Y)+2abcov(X,Y)Var(aX+bY) = a^2Var(X)+b^2Var(Y)+2abcov(X,Y)
  • 독립일 경우 Var(X+Y)=Var(X)+Var(Y)Var(X+Y) = Var(X)+Var(Y) becauseCov(X,Y)=0Cov(X,Y)=0

0개의 댓글