확률오차 & 기댓값 & SEM & 이항분포 & Bootstrap & Simpson's Paradox

용용·2024년 4월 14일

다변량데이터분석

목록 보기

4/4

Probability error(확률 오차)

관측값과 예측값 사이의 차이
ex) 동전을 10번 던져서 앞면이 나올 횟수를 5라고 예측하겠지만, 실제 관측값은 6일 수 있다. 이 경우 probility error는 +1이다.

The law of large numbers (거대수의 법칙)
-시행 횟수가 아주 많아질수록 확률 오차의 절댓값은 커진다. (계속해서 누적되므로)
-시행 횟수가 아주 많아질수록 이론적인 확률(예측값)에 가까워지므로, 확률 오차의 상대적인 영향력은 줄어든다.

Expected Value(기댓값)

어떤 확률 과정을 무한히 반복했을 때 얻을 수 있는 값들의 평균으로 기대하는 값

ex1) 동전을 무한히 던져서 나오는 면(앞:1, 뒤:0)의 기댓값 구하기
X(확률변수): 동전을 던져서 나오는 면
xi: 1, 0
pi: 앞면, 뒷면 모두 0.5
E[X]=(1×0.5)+(0×0.5)=0.5

ex2) 주사위를 무한히 던져서 나오는 눈의 기댓값 구하기
X: 주사위를 던져서 나오는 눈
xi: 1, 2, 3, 4, 5, 6
pi: 모두 1/6
E[X]=(1×(1/6) + 2×(1/6) + 3×(1/6) + 4×(1/6) + 5×(1/6) + 6×(1/6)) = 3.5

- Mean(평균)과의 차이??

기댓값과 평균은 결과적인 계산값은 같지만 자료에 대한 관점이 다르다.
평균은 이미 나와있는 정확한 자료에 대해 그 값을 모두 더하여 도수로 나눈 값이지만,
기댓값은 주어진 사건에 대한 확률을 반영하는 시행에 대하여 평균으로 기대하는 값을 말한다.

Standard Error(표준 오차, SE)

수많은 표본들 통계의 편차를 구함으로써 모수의 통계를 추정하는데, 대부분 평균을 다루기 때문에 SEM이라고도 한다. 아래는 SEM에 대한 공식이다.

ex) 주사위를 36번 던지는 경우의 SEM
주사위를 한 번 던질 때의 표준편차 σ =√{(1-3.5)^2+(2-3.5)^2+(3-3.5)^2+(4-3.5)^2+(5-3.5)^2+(6-3.5)^2}/6 ≈ 1.7078
SEM = 1.7078/√36 = 0.2846

=> 주사위를 던질 때 3.5가 나올 가능성이 가장 크고, 그 위아래로 0.28 떨어진 값이 나올 가능성이 크다.

Binomial Distribution(이항 분포)

Bernoulli trials: 결과가 2가지 중 하나로만 나오는 실험 ex)증가/감소, 성공/실패, 생존/사망
Bernoulli distribution: 베르누이 시행의 결과를 나타내는 이산 확률 분포로, 결과가 0이나 1로 표현됨
-1개의 매개변수 p(성공확률, 1-p는 실패확률)로 정의

Binomial distribution(이항 분포): 베르누이 시행을 독립적으로 반복하여 결과를 관찰하는 경우에 사용되는 확률 분포
-베르누이 분포에서 확률변수 X 가 성공 1, 실패 0 두 개의 값만을 갖는다면, 이항 분포에서 확률변수 X는 성공의 횟수를 가짐
-2개의 매개변수 p(성공확률), n(시행횟수)으로 정의
-X~B(n,p)로 표현

이항분포의 확률질량함수

ex) 동전을 10번 던지는 시행의 이항 분포

X가 이항분포를 따르는 확률변수일 때 E(X)와 Var(X) 구해보기

우선 첫 번째 시행(X1)에 대한 평균과 분산을 구한다.
X1, X2, ..., Xn에 대한 평균과 분산을 구한다.

Ex) 동전을 100번 던지는 시행의 E(X)와 V(X) 구하기

동전을 1번 던질 때 앞면이 나올 확률은?
P(X1=1) = (1/2)^1(1-1/2)^(1-1) = 1/2 = 0.5
동전을 1번 던질 때의 기댓값은?
E[X1] = p = 1/2 = 0.5
동전을 1번 던질 때 앞면이 나올 횟수의 분산은?
Var(X1) = p(1-p) = 1/2×1/2 = 1/4 = 0.25
동전이 앞면이 나올 횟수의 기댓값은?
E(X) = np = 100×0.5 = 50
동전이 앞면이 나올 횟수의 분산은?
Var(X) = np(1-p) = 100×0.5×0.5 = 25

=> 동전 던지기를 100회 시행햇을 때 앞면이 나올 횟수의 기댓값은 50 정도이고, 그 분포는 25이다.