기대값(Expectation) 과 분산(Varinace)

Surf in Data·2022년 4월 16일
0

statistics

목록 보기
3/4
post-custom-banner

수많은 데이터가 들어왔을때 그 데이터 들의 중심은 어느 정도인지 그 퍼짐은 어느정도인지를 확인하기 위해서는 기대값과 분산을 확인해야한다.

기대값(Expectation)

이산형 확률변수(discrete random variable) XX 랑 그 확률 질량 함수(p.m.f. p(x)p(x) 가 주어졌을 때 확렬변수 XX에 대한 기대값은 다음과 같다.

E(X)=ixip(xi)E(X) = \displaystyle\sum_{i}{x_i}{p(x_i)}

숫자 1, 2, 3, 4 ,5 가 주어졌을 때 이 수들의 평균을 구해보자 하면 많은 사람들이 다음과 같은 방법으로 구할것이다.

평균 = 1+2+3+4+55\displaystyle\frac{1+2+3+4+5}{5} = 3

이것을 기대값의 정의를 이용해 표현하면 다음과 같다.

E(X)=1(15)+2(15)+3(15)+4(15)+5(15)E(X) = \displaystyle1(\frac{1}{5})+2(\frac{1}{5})+3(\frac{1}{5})+4(\frac{1}{5})+5(\frac{1}{5})

즉, 우리가 익숙한 평균을 구하는 방법은 확률 변수에 대한 확률이 동일해서 나온 결과인것이다. 이것을 산술평균 이라고 부른다.
아래의 예시를 통해 각 확률변수에 대한 확률이 다를때의 기대값을 구해 보도록 하겠다.

ex) 확률 변수 XX는 동전을 2번 던졌을때 나오는 앞면의 수라 했을때 확률변수 XX 에 대한 기대값은?

E(X)=0(14)+1(12)+2(14)=1E(X) = \displaystyle0(\frac{1}{4})+1(\frac{1}{2})+2(\frac{1}{4}) = 1

즉, 평균적으로 동전을 2번 던졌을때 1번의 앞면을 볼 수 있다는 말이다.

기대값의 성질

  1. g(x) 가 확률 변수 XX에 대응하는 함수라 했을때 다음과 같은 식을 만족한다.

E(X)=ig(xi)p(xi)E(X) = \displaystyle\sum_{i}g({x_i}){p(x_i)}

  1. c, d 가 상수(constant)일때 다음과 같은 식을 만족한다.

E(c)=cE(c) = c
E(cX)=cE(X)E(cX) = cE(X)
E(cX+d)=cE(X)+dE(cX + d) = cE(X) + d

분산

이산형 확률변수(discrete random variable) XX 랑 그 확률 질량 함수(p.m.f. p(x)p(x) 가 주어졌을 때 확렬변수 XX에 대한 분산은 다음과 같다.

V(X)=E[(XE(X))2]V(X) = E[(X - E(X))^2]

위의 분산의 정의를 이해하는것이 제일 중요한데 이를 해석하면 다음과 같다.
먼저 XE(X)X - E(X) 는 확률변수 XX 와 평균인 E(X)E(X) 사이의 거리로 해석할 수 있다. 하지만 XE(X)X - E(X) 는 음수가 될 수 있으니 제곱을 통해 모두 양의 부호로 만들어주고 그에 대한 기대값을 구하는 것이다.
즉, 분산이란 확률 변수XX가 그것의 평균으로 부터 데이터가 얼마나 퍼져있는지를 알 수 있는 "척도"인 것이다.

분산은 위의 식을 풀어 아래와 같은 식을 사용함으로 더 간편하게 구할 수 있다.
V(X)=E(X2)E(X)2V(X) = E(X^2) - {E(X)}^2

분산의 성질

c, d 가 상수(constant)일때 다음과 같은 식을 만족한다.

V(c)=0V(c) = 0
V(cX)=c2V(X)V(cX) = c^2V(X)
V(cX+d)=c2V(X)V(cX + d) = c^2V(X)

profile
study blog
post-custom-banner

0개의 댓글