수많은 데이터가 들어왔을때 그 데이터 들의 중심은 어느 정도인지 그 퍼짐은 어느정도인지를 확인하기 위해서는 기대값과 분산을 확인해야한다.
기대값(Expectation)
이산형 확률변수(discrete random variable) X 랑 그 확률 질량 함수(p.m.f. p(x) 가 주어졌을 때 확렬변수 X에 대한 기대값은 다음과 같다.
E(X)=i∑xip(xi)
숫자 1, 2, 3, 4 ,5 가 주어졌을 때 이 수들의 평균을 구해보자 하면 많은 사람들이 다음과 같은 방법으로 구할것이다.
평균 = 51+2+3+4+5 = 3
이것을 기대값의 정의를 이용해 표현하면 다음과 같다.
E(X)=1(51)+2(51)+3(51)+4(51)+5(51)
즉, 우리가 익숙한 평균을 구하는 방법은 확률 변수에 대한 확률이 동일해서 나온 결과인것이다. 이것을 산술평균 이라고 부른다.
아래의 예시를 통해 각 확률변수에 대한 확률이 다를때의 기대값을 구해 보도록 하겠다.
ex) 확률 변수 X는 동전을 2번 던졌을때 나오는 앞면의 수라 했을때 확률변수 X 에 대한 기대값은?
E(X)=0(41)+1(21)+2(41)=1
즉, 평균적으로 동전을 2번 던졌을때 1번의 앞면을 볼 수 있다는 말이다.
기대값의 성질
- g(x) 가 확률 변수 X에 대응하는 함수라 했을때 다음과 같은 식을 만족한다.
E(X)=i∑g(xi)p(xi)
- c, d 가 상수(constant)일때 다음과 같은 식을 만족한다.
E(c)=c
E(cX)=cE(X)
E(cX+d)=cE(X)+d
분산
이산형 확률변수(discrete random variable) X 랑 그 확률 질량 함수(p.m.f. p(x) 가 주어졌을 때 확렬변수 X에 대한 분산은 다음과 같다.
V(X)=E[(X−E(X))2]
위의 분산의 정의를 이해하는것이 제일 중요한데 이를 해석하면 다음과 같다.
먼저 X−E(X) 는 확률변수 X 와 평균인 E(X) 사이의 거리로 해석할 수 있다. 하지만 X−E(X) 는 음수가 될 수 있으니 제곱을 통해 모두 양의 부호로 만들어주고 그에 대한 기대값을 구하는 것이다.
즉, 분산이란 확률 변수X가 그것의 평균으로 부터 데이터가 얼마나 퍼져있는지를 알 수 있는 "척도"인 것이다.
분산은 위의 식을 풀어 아래와 같은 식을 사용함으로 더 간편하게 구할 수 있다.
V(X)=E(X2)−E(X)2
분산의 성질
c, d 가 상수(constant)일때 다음과 같은 식을 만족한다.
V(c)=0
V(cX)=c2V(X)
V(cX+d)=c2V(X)