확률변수
- 표본공간의 각 결과에 실수 값을 대응시키는 함수
- 흔히 X,Y,Z를 사용하여 나타냄
- 확률 변수는 크게 이산확률변수와 연속확률변수로 나뉜다.
- 이산확률변수 : 확률변수가 가질 수 있는 값을 셀 수 있는경우
- 연속확률변수 : 확률변수가 어느 구간에 속하는 모든 값을 가질 수 있는 경우
확률분포
- 확률변수가 가질 수 있는 값과 그에 대응하는 확률을 나타낸 것
확률질량함수(pmf)
- 이산확률변수에서 특정값에 대한 확률을 나타내는 함수이다
- 확률 히스토그램으로 나타낸다
누적분포함수(cdf)
- 누적분포함수 : 이산확률 변수 X가 가질 수 있는 값 x보다 작거나 같은 누적확률값을 대응시키는 함수
- 성질 : 비감소함수, 우연속함수이다. 좌 무한대극한은 0이고 우 무한대극한은 1이다
기댓값 E(x)
- 쉽게 어떤 확률적 사건에 대한 평균 (모평균으로 사용가능)
- 확률을 가중치로 한 확률변수 X의 중심위치(평균)
- 표본평균의 평균은 가중치가 1/n으로 동일한 반면 확률변수의 평균에서는 확률변수 x의 확률을 가중치로 하여 구해야함
중앙값
- P(X≤m0)≥0.5 and P(X≥m0)≥0.5를 만족하는 m0
분산, 표준편차
- 표본분산과 동일하지만 아까말했듯이 가중치를 1/n이 아닌 각각의 확률로 두어야함
- 표본분산 : n−1∑(편차)2
- 확률변수의 분산 : ∑(편차)2×각각의확률
- 표준편차는 똑같이 루트를 씌워준다
- 분산의 간편 계산식 : Var(X)=E(X2)−(E(X))2
결합확률분포
- 이때까지 나온 것은 확률변수가 하나일때의 경우이고 보통 확률변수를 여러개 쓰는 경우가 더 많다. 한가지 특징만을 비교하는 경우보다 여러가지 특징을 비교하는 경우가 더 많다는 뜻이다.
결합확률분포
- 이산형 결합분포
- f(xi,yi)=P(X=xi,Y=yi)로 나타낸다
- f(xi)=P(X=xi) 와 비교했을 때 위 확률은 두개의 변수를 모두만족하는 확률임을 알수있다
- 결합확률질량함수라 부른다
- 확률변수 X,Y가 독립일 경우 f(xi,yi)=f(xi)×f(yi)
주변확률분포
- 주변확률분포를 사용하는 경우는 결합확률분포라는 가정하에 사용해야한다
- ex) 안경쓴 남자, 안경안쓴 남자, 안경쓴 여자, 안경안쓴 여자의 결합확률분포가 있다고 가정하면 여기서 그냥 남자만 구하거나 안경쓴 사람만 구하는 경우에 사용한다.
- 남자라는 변수를 고정시키고 안경쓴, 안경안쓴에 대한 경우를 모두 더하는 것이다. 이를 수식화하면
- Px(xi)=∑jP(X=xi,Y=yj)=∑jf(xi,yj)
- 구하고자하는 한 확률변수를 고정시키고 다른 한 변수만 바꾸면 모두 더한다.
조건부확률분포(번외)
- 조건부확률과 동일하다.
- 확률변수 X가 발생했다는 전제하에 확률변수 X,Y가 발생할 확률이므로 수식화하면
- PY∣X(yj∣xi)=P(X=xi)P(Y=yi∣X=xi)=PX(xi)PX,Y(xi,yj)
결합누적분포
- 위의 누적분포함수와 동일하지만 여러개의 확률변수를 고려해주어야함
- ex) F(2,3)=P(X≤2,Y≤3)
공분산
- 앞선 다변수 파트에서도 나왔지만 확률변수들이 어떤 관계를 가지며 변화하는지 알 수 있게하는 척도이다
- Cov(X,Y)=E(XY)−E(X)E(Y)
- E(XY)=∑i∑jxiyjf(xi,yj)
- E(X),E(Y)는 결합확률분포를 쓰면 편한다
- 성질 : Cov(aX,bY)=abCov(X,Y)
- 공분산은 그 자체의 값만으로는 연관성 강도를 알수가 없다. 단위가 다르기 때문에 자료에 따라 공분산의 연관성이 없어도 클수도 있고 있어도 작을 수 있기 때문이다.
상관계수
- 앞선 공분산의 한계를 극복하기위해 상관계수를 사용한다
- 확률변수의 단위에 영향을 받지 않는 측도이다
- 확률변수 사이의 선형 연관성을 측정할 수 있게 한다.
- Corr(X,Y)=∂x∂ycov(X,Y)=p(시그마)
- ∣p∣가 1에 가까울 수록 선형관계가 강함
- X,Y가 독립일경우 Corr(X,Y)=0 / Corr(X,Y)=0이 독립은 아님(역은 성립X)
분산의 합과 차
- Var(X+Y)=Var(X)+Var(Y)+2cov(X,Y)
- Var(X−Y)=Var(X)+Var(Y)−2cov(X,Y)
- Var(aX+bY)=a2Var(X)+b2Var(Y)+2abcov(X,Y)
- 독립일 경우 Var(X+Y)=Var(X)+Var(Y) becauseCov(X,Y)=0