PART02 빅데이터 탐색 - CHAPTER03 통계기법의 이해 - (1)

전유진·2021년 12월 9일

베이지안정리 빅데이터분석기사 조건부확률 표본추출 확률 확률분포

빅데이터분석기사

목록 보기

5/6

01 기술 통계

기술통계(Descriptive Statistics)는 분석에 필요한 데이터를 요약하여 묘사, 설명하는 통계기법을 의미한다.

분석에 앞서 데이터의 특성을 파악해 그 특성을 정량화함으로써 데이터를 체계적으로 요약하는 과정이 필요하다.

기술통계의 종류
- 중심화 경향(Central Tendency): 관찰 또는 수집된 데이터의 물리적/상대적 위치에 대한 요약
- 분산도 경향(Degree of Dispersion): 데이터들이 흩어진 정도에 대한 기술 및 요약
- 자료의 분포 형태(Shape of Distribution, Skewness): 자료의 분포 형태(치우친 정도)에 대한 기술 및 요약

1. 데이터 요약

데이터의 분포가 가지는 특성을 찾아내고 그 특징을 정량화하여 기술하는 과정으로, 주로 기초통계량을 산출하여 결과를 도출한다.

2. 표본추출

모집단(Population): 연구, 실험의 결과가 일반화된 큰 집단. 정보를 얻고자 하는 관심대상의 전체집합
표본(Sample): 모집단에서 일부를 추출하여 조사한 결과로, 원래 집단의 성질을 추측할 수 있는 자료로 정의됨
표본 추출(Sampling): 모집단으로부터 표본을 선택하는 행위.

1) 전수조사와 표본조사

(1) 전수조사

모집단 전체를 대상으로 조사하는 것. ex)인구조사

현실적으로 집단 내 모든 단위를 조사하는 것은 인력, 예산 자원 문제로 불가능하기 때문에 대부분의 통계조사는 표본조사로 이루어짐

(2) 표본조사

모집단에서 추출한 표본을 대상으로 조사를 시행하는 것

모집단의 일부가 전체를 대표할 수 있다는 근거가 명확하다면 일부 표본으로 조사를 시행하고 모집단 전체의 분석결과로 간주한다.

전수조사에 비해 비용절감
조사결과의 신속성
조사규모가 크지 않기 때문에 심도있는 조사 가능
관리가 비교적 잘 되므로 정확성이 높음

2) 표본추출 오차(Sampling Bias, Sampling Error)

표본에서 선택된 대상이 모집단의 특성을 과잉 대표하거나 최소 대표할 때 발생하는 문제이다.

(1) 과잉 대표

중복 선택 등의 원인으로 모집단이 반복, 중복된 데이터만으로 규정되는 현상

(2) 최소 대표

실제 모집단의 대표성을 나타내는 표본이 아닌 다른 데이터가 표본이 되는 현상

표본 추출 시 표본의 크기(Sample Size) 보다는 대표성을 가지는 표본을 추출하는 것이 중요하다.

3) 확률 표본추출 기법

모집단에 속하는 모든 추출단위에 대해 사전에 일정한 추출 확률이 주어지는 표본추출법.

모든 표본의 추출 확률을 사전에 알 수 있다.
표본으로부터 얻어지는 모집단에 대한 추정량의 통계적 정확도를 확률적으로 나타낼 수 있다.

(1) 단순무작위 추출(Simple Randim Sampling)

통계조사에서 가장 기본이 되는 표본추출법.

난수(random number)를 이용해 모집단으로부터 무작위(randomly) 추출한다.
- 모집단 내의 조사단위수(N)를 파악한 후 각 요소에 고유번호(random number)를 부여하고, 원하는 표본수(n)만큼 난수를 발생시켜 그 번호에 해당되는 표본을 추출한다.
- 모집단의 각 구성요소가 표본으로 추출될 확률은 n/N이다. (독립적 선택)
추출 모집단에 대해 사전지식이 많지 않은 경우에 사용한다.

(2) 계통추출(Systematic Sampling)

모집단에서 추출간격(Sampling Interval)을 설정하여 그 간격 사이에서 무작위로 추출하는 방법이다.
- 전체 모집단이 N개인 집단에서 K(K<N)의 추출간격으로 뽑는다면 N/K 수만큼의 표본이 선택될 수 있다. (1/K 계통추출법)

(3) 층화추출(Stratified Sampling)

표본조사 시 가장 많이 활용되는 표본 추출 방법으로, 모집단을 서로 겹치지 않게 여러 층(strata)으로 나눈 후 분할된 층(stratum)별로 표본을 추출한다.

집단별 분석이 필요한 경우나 모집단 전체에 대한 특성을 잘 알고 있고 그에 대한 효율적 추정이 필요한 경우 시행한다.

ex) 모집단의 남녀 성비가 3:2인 경우 표본의 성비도 3:2가 되도록 뽑는다.

특징
- 전체모집단에 대한 추정 뿐 아니라 각 층별 추정결과도 얻을 수 있다.
- 모집단을 효과적으로 층화할 경우 임의로 추출한 표본에서 구한 추정량보다 오차가 적다.
  
  효과적인 층화 방법은?
  
  층내는 유사한(homogeneous) 특성의 표본들로, 층별로는 이질적인(heterogeneous) 특성의 표본들이 되도록 구성하는 것이 좋다.
  
  층내의 표본 특성이 유사하다는 것은 층 내부에 있는 단위들의 값의 변동이 적다는 것을 뜻하며 이는 추정량의 분산이 작아짐을 의미하기 때문에 추정량의 오차가 적어지게 된다.
- 표본의 대표성 제고 및 조사관리가 편리하고, 조사비용도 절감된다.
층화변수(Stratification Variable)

모집단을 층화할 때 각 추출단위가 어느 층에 속할지 구분하기 위해 기준으로 사용되는 변수.

-> 사전에 모집단 단위들의 정보를 쉽게 알 수 있으면서도 조사하고자 하는 주 변수와 밀접한 관련이 있는 보조변수가 되어야 한다.
- 질적 층화변수: 변수값에 따라 층 구분
- 양적 층화변수: 층의 경계점을 나누는 방법 필요
  - 층화변수가 양적 변수인 경우 층의 최적경계점(optimum point of stratification)을 결정해야 한다.
ex) 여론조사에서 층화추출 방법으로 표본을 선택하고자 할 때, 층화변수로는 성별, 지역, 연령, 학력 등을 사용할 수 있다.

표본의 배분

층화를 한 이후에는 각 층에 표본을 몇 개씩 추출할 것인지 결정해야 한다.

방법	특징
비례배분법	- 각 층 내의 추출단위 수(층의 크기)에 비례하여 표본을 배분 - 층 내의 변동과 조사비용은 고려하지 않고 층의 크기만을 고려함 - 일반적으로 여론조사, 의식조사 등에 많이 활용 ex) 여론조사 시 한 지역의 유권자 성비가 남3, 여2라면 추출 표본의 성비도 남3, 여2로 추출
네이만배분법	- 각 층의 크기와 층별 변동의 정도를 동시에 고려해 배분 - 변동이 큰 층에 상대적으로 많은 표본을 배정
최적배분법	- 추정량의 분산을 최소화하거나 주어진 분산의 범위 내에서 비용을 최소화하도록 배분
동일배분법	- 모든 층에 동일한 수의 표본을 배분

(4) 군집추출(Cluster Sampling)

서로 다른 특성을 가진 층을 나누어 각 층에서는 동질적인 특성을 가진 표본을 추출하는 층화추출과 달리, 군집추출은 모집단을 차이가 없는 여러 군집으로 나누어 군집 내에서 서로 이질적인 특성을 갖는 표본들을 추출한다.

주로 모집단의 크기가 너무 크고 층화하기 어려운 경우에 사용한다.

ex) 특정 지역의 초등학생 사교육 실태조사를 실시하고자 할 때, 여러 초등학교 중 몇 개를 임의로 군집으로 선택, 선택된 각 학교들의 학생 전체 혹은 일부에 대한 조사를 실시한다.

군집이 잘 규정되지 않았을 경우 단순 무작위추출에 비해 표본오차가 커질 가능성이 있다.

4) 비확률 표본추출 기법

각 추출단위들이 표본으로 추출될 확률을 객관적으로 나타낼 수 없는 표본추출법.

모집단을 정확히 규정할 수 없는 경우, 표본오차가 큰 문제가 되지 않는 경우, 조사에 앞서 진행되는 새로운 개념에 대한 탐색적 연구 등에 사용됨
비용, 시간, 조사 편리성 면에서 효율적이다

(1) 간편추출법(편의추출법, Convenience Sampling)

응답자 선정 시 조사원의 자의적인 판단에 따라 간편한 방법으로 표본을 추출함.
얻어진 표본이 모집단을 얼마나 잘 대표하는지 알 수 없고, 얻어진 통계치에 대한 통계적 정확성을 평가할 수 없다.

ex) 특정 장소를 지나가는 사람들을 대상으로 여론조사를 하는 경우

(2) 판단추출법(Judgement Sampling)

조사자가 나름의 지식과 경험에 의해 모집단을 가장 잘 대표한다고 생각되는 표본을 주관적으로 선정
조사자의 주관적 판단에 의해 표본이 선정되기 때문에 표본을 통해 얻은 추정치의 정확성과 신뢰도에 문제가 있음
표본의 크기가 작은 경우 추정량의 분산이 조사의 오차를 좌우하는 요인이 됨

ex) 어느 교육기관의 연구원이 국내 전체 학생들의 평균성적을 알아보기 위해 몇 학교를 나름대로 선정하는 경우

(3) 할당추출법(Quota Sampling)

조사목적과 밀접하게 관련된 조사대상자의 연령, 성별 등의 변수에 따라 모집단을 부분집단으로 구분하고, 모집단의 부분집단별 구성비율과 표본의 부분집단별 구성비율이 유사하도록 표본을 할당.
비용이 적게 들고 간편하기 때문에 단기간 조사에 적합

ex) 어느 대학에서 학생 서비스 만족도 조사 시 각 학과별, 학년별, 성별 구성비율에 따라 표본을 구성하는 경우

(4) 눈덩이추출법(Snowball Sampling)

접근이 어렵거나 추출틀(Sampling Frame) 작성이 곤란한 특정 집단에 대한 조사에서 사용
해당 집단에 속하는 것을 사전에 알고 있는 사람들을 대상으로, 그 집단의 다른 사람들을 소개받아 조사를 진행하는 방법

ex) 조직폭력배 구성원들의 약물사용 실태를 조사하는 경우

3. 확률분포

기술통계: 분석에 필요한 데이터를 요약하고 묘사, 설명하는 통계기법
추론통계: 표본에 내포된 정보를 이용해 모집단에 대한 과학적인 추론을 하는 통계기법

확률과 확률분포는 모집단에 대한 추론이 얼마나 정확한지에 대한 논리적 타당성을 제시하는 도구이다.

1) 확률의 개념

통계적 현상: 불확정 현상을 반복관찰하거나 집단 안에서 대량으로 관찰하여 그 고유의 법칙성을 찾아내는 것이 가능한 현상을 의미한다.
확률 실험: 같은 조건 하에서 반복할 수 있는 실험이다. 시행결과는 매번 우연에 의해 달라지기 때문에 예측할 수 없지만, 가능한 모든 결과의 집합을 알 수는 있다. 반복시행의 횟수를 늘리면 시행결과들에 어떤 규칙성이 나타나는 것을 확인할 수 있다.

경우의 수

경우의 수란 확률실험 1회 시행 시 일어날 수 있는 사건의 종류를 말한다.

합의 법칙: 두 사건 A 또는 B가 일어나는 경우의 수는 A와 B가 독립일 경우 A가 일어날 경우의 수와 B가 일어날 경우의 수의 합이다.

곱의 법칙: 두 사건 A와 B가 동시에 일어나는 경우의 수는 A가 일어날 경우의 수와 B가 일어날 경우의 수의 곱이다.

순열: 서로 다른 n개의 원소에서 r개를 중복 없이 순서를 고려하여 선택하는 경우의 수
$_nP_r = \frac{n!}{(n-r)!}$

조합: 서로 다른 n개의 원소에서 r개를 중복 없이 순서를 고려하지 않고 선택하는 경우의 수
$_nC_r = \frac{n!}{(n-r)!r!}$

(1) 확률

확률이란 통계적 현상이 발생할 가능성에 대한 확실함의 정도를 나타내는 척도이다.

수학적 확률(Mathematical Probability)

표본공간 S의 각 사건이 일어날 가능성이 동일할 때, $n(A) / n(S)$ 를 사건 A가 발생할 수학적 확률이라고 한다.
$P(A) = \frac{n(A)}{n(S)}$

ex) 주사위를 던질 때 6이 나올 확률은 1/6이다.
통계적 확률(Statistical Probability)

일반적인 자연현상이나 사회현상에서는 각 사건의 발생가능성이 동일하지 않아서 수학적 확률을 구할 수 없는 경우가 대부분이다. 이 경우 특정 사건이 일어나는 확률을 상대도수에 의해 추정하게 된다. n회의 시행에서 특정 사건이 r회 일어났다고 하면 상대도수는 r/n으로 정의되며, 이를 통계적 확률이라고 한다.

어떤 시행을 n회 반복하고 그 중 사건 A가 일어난 횟수를 $r_n$ 이라고 정의할 때, n이 증가함에 따라 $r_n / n$ 이 일정한 값 p에 수렴하면 이 p를 사건 A의 통계적 확률이라 한다.
$p = \frac{r_n}{n}$

ex) 서울에서 출생한 남, 여 각 500명을 대상으로 연령대별 생존자 수를 조사한 결과 다음과 같다.

연령대 남자 생존자 수 여자 생존자 수
0세 500 500
30세 440 450
60세 390 410

이를 바탕으로 현재 30세인 남자가 60세까지 살아있을 통계적 확률을 계산하면 390 / 440 = 88.6% 이다.

연령대	남자 생존자 수	여자 생존자 수
0세	500	500
30세	440	450
60세	390	410

(2) 사건(Event)

동일한 조건으로 여러 차례 반복할 수 있는 실험이나 관측을 시행이라 하고, 시행의 결과로 나타나는 결과를 사건이라 한다.

사건은 개별적인 시행으로 발생하는 결과일 수도 있고, 몇 가지의 복합된 시행 결과의 집합일 수도 있다.
어떤 사건의 발생 확률은 그 사건에 포함되어있는 각 결과의 발생 확률의 합으로 나타낸다.

ex) 두 개의 동전을 던졌을 때, 둘 중 하나만 앞면이 나올 사건의 확률은 [앞,뒤]가 나올 사건의 확률(1/4)과 [뒤,앞]이 나올 사건의 확률(1/4)의 합인 1/2가 된다.

(3) 표본공간(Sample Space)

표본공간이란 통계적 실험에서 발생 가능한 모든 실험결과들의 집합을 의미한다.

표본공간 자체는 전사건, 아무것도 포함하지 않는 사건은 공사건이라고 하고, 하나의 결과를 포함하는 사건은 근원사건이라 한다.
표본공간이 S인 확률실험에서 사건은 S의 부분집합이 된다.

ex) 두 개의 동전을 던졌을 때 표본공간 S는 다음과 같이 정의된다.

S = { (앞, 앞), (앞, 뒤), (뒤, 앞), (뒤, 뒤) }

이 때 앞 면이 적어도 한 번 나오는 사건 A는 다음과 같이 표현된다.

A = { (앞, 앞), (앞, 뒤), (뒤, 앞) }

(4) 확률의 기본성질

어떤 사건 A가 발생할 확률은 항상 0 이상이다.
표본공간 S에서 사건이 발생할 확률은 1이다.
사건 A 또는 사건 B가 발생할 확률은 각 사건이 발생할 확률의 합에서 두 사건이 동시에 발생할 확률을 뺀 값이다.
$A^C$ 는 $A$ 의 여사건으로, A가 발생하지 않는 사건을 의미한다.
존재하지 않는 사건이 일어날 확률은 0이다.
A가 B의 부분집합이면 A가 발생할 확률은 B가 발생할 확률보다 작거나 같다.

(5) 조건부 확률

조건부 확률이란 사건 B가 일어났다는 조건 하에서 다른 사건 A가 일어날 확률을 의미한다.

P(A|B) = \frac{P(A \cap B)}{P(B)}, ~~~~~~ P(B) > 0

주사위를 던져서 2의 눈이 나올 확률은 1/6이지만, 나온 수가 짝수라는 조건 하에서는 확률이 1/3이 된다.

조건이 주어지지 않은 경우 표본공간은 {1, 2, 3, 4, 5, 6}이지만 조건이 주어지게 되면 표본공간이 {2, 4, 6}으로 축소되기 때문이다.
$\text{짝수라는 조건 하에 2의 눈이 나올 확률} = \frac{\text{짝수이면서 2가 나올 확률}}{\text{짝수일 확률}} = \frac{\frac{1}{6}}{\frac{1}{2}} = \frac{1}{3}$

(6) 결합 확률(확률의 곱셈)

결합 확률이란 사건 A와 B가 동시에 발생하는 확률을 의미하며, 확률의 곱셈 법칙을 따른다.

P(A) \times P(B) = P(A\cap B)

A와 B가 서로 독립이면, 즉 서로 영향을 주지 않는 별개의 사건이면 B가 발생했을 때 A가 발생할 조건부확률 $P(A|B)$ 는 단순히 $P(A)$ 이기 때문에 $P(A)=\frac{P(A\cap B)}{P(B)}$ 가 되어, 위와 같은 곱셈법칙이 성립하게 된다.

어떤 회사에서 만든 기계가 1년 내에 고장날 가능성이 20%라고 한다. 이 기계를 2대 구입했을 때, 1년 내에 두 기계가 모두 고장날 확률과 하나의 기계만 고장날 확률은 어떻게 될까?

첫 번째 기계가 고장나는 사건을 A, 두 번째 기계가 고장나는 사건을 B라고 하자. 이 때 $P(A) = 0.2, P(B) = 0.2$ 이다.

두 사건은 서로 독립이므로 두 기계가 모두 고장날 확률은 $P(A\cap B) = P(A) * P(B) = 0.2 \times 0.2 = 0.04$ 가 되고,

한 기계만 고장날 확률은 $P(A^C \cap B) + P(A \cap B^C) = (P(A^C) \times P(B)) + (P(A) \times P(B^C)) = (0.8 \times 0.2) + (0.2 \times 0.8) = 0.32$ 가 된다.

(7) 총확률정리(Total Probability Rule)

총확률정리란 임의의 사건 A가 발생할 확률을 k개의 조건부 확률을 이용해서 구하는 것이다. 전체확률의 법칙(Law of Total Probability)이라고도 한다.

출처: https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=mykepzzang&logNo=220834919339<\center>

표본공간이 위와 같이 상호 독립적인 사건 $B_1, B_2, \cdots , B_k$ 로 분할될 때, 같은 표본공간 내에서 사건 A가 발생할 확률은 k개의 B 사건과의 조건부확률을 이용해 계산할 수 있다.

P(A) = \sum^k_{i=1}P(A|B_i)P(B_i)

반도체를 생산하는 세 개의 생산라인 A, B, C가 있다. 반도체 생산품의 50%는 A에서, 30%는 B에서, 나머지 20%는 C에서 생산하고, 각각 3%, 5%, 6%의 불량률을 갖는다.

생산된 반도체 중 임의로 하나를 선택했을 때 불량품일 확률은 얼마일까?

선택한 반도체가 각 라인에서 생산되었을 사건을 A, B, C라고 하고, 불량품일 사건을 D라고 하면,
$P(D) = P(A\cap D) + P(B\cap D) + P(C\cap D) \\ = P(A) \times P(D|A) + P(B) \times P(D|B) + P(C) \times P(D|C) \\ = 0.5 \times 0.03 + 0.3 \times 0.05 + 0.2 \times 0.06 \\ = 0.042$

(8) 베이지안 정리

총확률정리에 따라 임의의 사건 A가 발생할 확률을 k개의 조건부확률을 이용해 계산하면, 베이지안 법칙(Bayes' Theory)를 이용해 표본공간을 분할하는 k개의 상호독립적인 사건 $B_1, B_2, \cdots, B_k$ 에 대한 사후확률(Posterior Probability)을 구할 수 있다.

$P(B_i)$ 는 미리 주어진 사전확률(Prior Probability)이지만, 사건 A라는 새로운 사건이 발생하게 되면 $P(B_i|A)$ 를 구할 수 있고, 이게 사후확률이 된다.

베이지안 법칙은 사전에 어떤 사건 B에 대한 사전확률이 부여된 상태에서 다른 사건 A에 대한 정보가 알려진 후, 다시 사건 B에 대한 사후확률을 아래와 같이 정의하는 것이다.

P(B_j|A) = \frac{P(A|B_j)P(B_j)}{P(A)} = \frac{P(A|B_j)P(B_j)}{\Sigma^k_{i=1}P(A|B_i)P(B_i)}

반도체에 대한 불량검사가 정확할 확률이 90%, 정상제품인데도 불량이라고 판단될 확률이 10%라고 하자.

임의의 반도체를 선택해서 불량검사를 했을 때 불량품이라는 결과가 나왔지만 실제로 불량이 아닐 확률은 얼마일까?

반도체가 불량인 사건을 A, 정상인 사건을 B, 불량검사 결과 불량 판정을 받는 사건을 C라고 한다면, 각 사건이 발생할 확률은 아래와 같다.
$P(A) = 0.042,~~~ P(B) = 1 - 0.042 = 0.958,~~~ P(C|A) = 0.9,~~~ P(C|B) = 0.1$
임의의 반도체에 대해 불량검사를 했을 때 불량판정이 나올 확률은
$P(C) = P(C|A)P(A) + P(C|B)P(B) = 0.9 * 0.042 + 0.1 * 0.958 = 0.1336$
이고, 불량판정을 받은 제품이 실제로 불량일 사후확률을 다음과 같이 구할 수 있다.

2) 확률변수

(1) 확률변수(Random Variable)

확률변수는 사건의 시행 결과를 하나의 수치로 대응시킨 값을 의미하며, 일반적으로 X로 표기한다.

ex) 동전 두 개를 던져 앞면이 나오는 횟수를 확률변수 X라고 하자. X가 가질 수 있는 값은 0, 1, 2 세가지 경우이고, 앞면이 2개 나올 확률은 P(X=2) 와 같이 표기한다.

(2) 확률변수의 종류

이산확률변수(Discrete Random Variable): 확률변수가 취할 수 있는 값의 수가 유한한 변수
- 확률변수 X가 X=[0, 1, 2, 3]과 같이 셀 수 있는 값을 취할 때 X를 이산확률변수라고 한다.
  ex) 동전 던지기
연속확률변수(Continuous Random Variable): 확률변수가 취할 수 있는 값의 수가 무한한 변수
- 확률변수 X가 셀 수 없고 연속적인 값을 취할 때 X를 연속확률변수라고 한다.
- 연속확률변수는 특정 값을 취할 때의 확률이 아닌 특정 구간에 해당할 확률을 계산하며, $P(a\leq X \leq b)$ 와 같이 표기한다.
  ex) 키, 몸무게 등

3) 확률분포

확률분포는 수치로 대응된 확률변수의 개별 값들이 가지는 확률값의 분포이다.

(1) 이산확률분포(Discrete Probability Distribution)

이산확률변수가 갖는 확률분포로, 다음과 같은 확률질량함수(Probability Mass Function)로 나타낸다.

\sum f(x) = 1,~~~~~~ \text{모든 x에 대해} 0 \leq f(x) \leq 1

(2) 연속확률분포(Continuous Probability Distribution)

연속확률변수가 갖는 확률분포로, 다음과 같은 확률밀도함수(Probability Density Function)로 나타낸다.

\int\limits f(x) dx = 1 \\ P(a < X < b) = \int_a^bf(x)dx

(3) 확률분포함수(Probability Distribution Function, 확률함수)

확률변수가 취할 수 있는 값 하나하나를 확률공간상의 확률값으로 할당해주는 함수이다.

이산확률분포함수
연속확률분포함수

4) 확률변수의 기댓값과 분산

(1) 기댓값(Expected Value)

각 확률변수가 특정 값을 가질 확률을 가중치로 하여 계산한 확률변수 결과값의 평균값.

이산확률변수의 기댓값
$E(X) = \sum xf(x), ~~~~~~~ f(x)\text{는 확률질량함수}$

ex) 주사위를 한 번 던졌을 때 나오는 값에 대한 기댓값:
$E(X) = 1 \times \frac{1}{6} + 2 \times \frac{1}{6} + 3 \times \frac{1}{6} + 4 \times \frac{1}{6} + 5 \times \frac{1}{6} + 6 \times \frac{1}{6} = 3.5$
연속확률변수의 기댓값
$E(X) = \int^\infty_{-\infty} xf(x)dx, ~~~~~~~f(x)\text{는 확률밀도함수}$

ex) 구간 [0, 1]에서 연속인 확률변수 X의 확률밀도함수 f(x)=1 이라고 할 때 X의 기댓값:
$E(X) = \int^\infty_{-\infty} xf(x)dx = \int^\infty_{-\infty} xdx = \left[ \frac{1}{2}x^2 \right]_0^1 = \left(\frac{1}{2} - 0\right) = \frac{1}{2}$

(2) 기댓값의 성질

선형성
$E(aX + b) = aE(X) + b$
덧셈법칙
- 두 확률변수 X와 Y가 독립이든 종속이든 관계없이 항상 다음이 성립한다.
$E(X + Y) = E(X) + E(Y)$
곱셈법칙
- 두 확률변수 X와 Y가 독립일 때에만 다음이 성립한다.
$E(XY) = E(X)E(Y)$

(3) 분산(Variance)

확률분포의 산포도를 나타내는 측도로, $Var(X)$ 로 표시한다.

* $\mu = E(X)$

이산확률변수의 분산
$Var(X) = \sum(x-\mu)^2f(x) = \sum x^2f(x) - \mu^2 = E(X^2) - \{E(X)\}^2$
연속확률변수의 분산
$Var(X) = \int^\infty_{-\infty} (x - \mu)^2f(x)dx = \int^\infty_{-\infty} x^2f(x)dx - \mu^2 = E(X^2) - \{E(X)\}^2$

(4) 분산의 성질

Var(aX) = a^2Var(X)\\ Var(X + b) = Var(X)\\ Var(aX + b) = a^2Var(X)\\ Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y)

5) 이산확률분포의 종류

(1) 베르누이 분포(Bernoulli Distribution)

결과가 성공 혹은 실패 두 가지로 귀결되는 이산확률분포로, $X \sim Bern(x, p)$ 로 표기한다. 이 때 p는 x가 성공일 확률을 의미한다.

확률질량함수 $f(x) = p^x (1-p)^{(1-x)}$
기댓값 $E(X) = p$
분산 $Var(X) = p(1-p)$

(2) 이항분포(Binomial Distribution)

베르누이 시행을 n번 독립적으로 시행할 때의 성공횟수를 나타낸 이산확률분포로, $X \sim B(n, p)$ 로 표기한다.

확률질량함수 $f(x) = \binom{n}xp^x(1-p)^{(n-x)}$
기댓값 $E(X) = np$
분산 $Var(X) = np(1-p)$

ex) 동전을 3번 던졌을 때 앞면이 나오는 횟수를 X 라고 할 때, 앞면이 두 번 나올 확률은

$f(2) = \binom{3}2\left(\frac{1}{2}\right)^2\left(\frac{1}{2}\right)^{(3-2)} = \frac{3}{8}$ 이고,

기댓값은 $3 \times \frac{1}{2} = \frac{3}{2}$ , 분산은 $3 \times \frac{1}{2} \times \frac{1}{2} = \frac{3}{4}$ 이 된다.

(3) 다항분포(Multinomial Distribution)

여러 개의 값을 가질 수 있는 독립 확률변들에 대한 확률분포로, 여러 번의 독립시행에서 각 값이 특정 횟수만큼 나타날 확률을 정의하는 분포이다.

확률질량함수
$f(x_1, x_2, \cdots, x_k; ~~ n, p_1, p_2, \cdots, p_k) = \frac{n!}{x_1!x_2!\cdots x_k!}p_1^{x_1}p_2^{x_2}\cdots p_k^{x_k}\\ \text{이 때}~~ n = x_1 + x_2 + \cdots + x_k$
기댓값 $E(X_i) = np_i$
분산 $Var(X_i) = np_i(1-p_i)$

ex) 3개의 활주로가 있는 어느 공항에서 각 활주로가 이용될 확률이 다음과 같을 때,
$\text{활주로 A}: p_A = \frac{4}{18}, ~~~\text{활주로 B}: p_B = \frac{3}{18},~~~ \text{활주로 C}: p_C = \frac{11}{18}$
임의로 도착하는 6대의 비행기가 활주로 A에 2대, 활주로 B에 1대, 활주로 C에 3대 도착하게 될 확률은 아래와 같이 구할 수 있다.
$f(2, 1, 3; ~~6, \frac{4}{18}, \frac{3}{18}, \frac{11}{18}) = \frac{6!}{2!1!3!}\left(\frac{4}{18}\right)^2\left(\frac{3}{18}\right)^1\left(\frac{11}{18}\right)^3 = 0.112703$

(4) 포아송분포(Poisson distribution)

단위 시간 안에 어떤 사건이 몇 번 발생한 것인지를 표현하는 이산확률분포로 , $X \sim Pois(\lambda)$ 로 표기한다.

ex) 특정 시간대에 은행에 방문하는 고객 수, 하루 동안 걸려오는 전화 수 등

X를 단위시간당 발생하는 사건의 건수라고 하면 포아송분포는 평균 사건 발생 수 $\lambda$ 에 의해 유도된다.

확률질량함수 $f(x) = \frac{\lambda^x e^{-\lambda}}{x!}$
기댓값 $E(X) = \lambda$
분산 $Var(X) = \lambda$

이항분포는 n과 p 두 개의 모수에 의해 유도되는 반면 포아송분포는 하나의 모수로 정의되기 때문에 이항분포를 포아송분포로 근사시켜 확률을 구하는 경우도 있다. 경험적으로 이항확률변수는 n이 무한히 커지고 p가 매우 작을 경우( $n \geq 30, p \leq 0.05$ )에 $\lambda = np$ 가 성립하고, 즉 이항분포의 기댓값이 포아송분포를 따른다.

ex) 호텔 예약자의 5%가 예약 당일 예약을 취소한다고 하자. 객실수가 95개인 한 호텔에서 100개의 예약을 받았을 때, 5건의 예약이 취소되어 당일 호텔에 도착한 모든 사람이 객실을 이용할 수 있을 확률은 어떻게 될까?

100명의 예약자 중 예약을 취소하는 사람이 몇 명인지에 대한 확률은 X ~ B(100, 0.05)의 이항분포로 나타낼 수 있다 . n이 30 이상이고 p가 0.05 이하이기 때문에 이항분포의 포아송근사가 가능하고 $\lambda$ 는 100 x 0.05 = 5 가 된다.

이 때 모든 사람이 호텔에 들어갈 수 있을 확률, 즉 5명 이상이 예약을 취소할 확률은 다음과 같이 구할 수 있다. (X = 예약 취소자 수)
$P(X \geq 5) = 1 - [P(X=4) + P(X=3) + P(X=2) +P(X = 1)+ P(X=0)]\\ = 1 - \left(\frac{5^4 e^{-5}}{4!} + \frac{5^3 e^{-5}}{3!} + \frac{5^2 e^{-5}}{2!} + \frac{5^1 e^{-5}}{1!} + \frac{5^0 e^{-5}}{0!}\right) \\ = 1 - (0.1775 + 0.1404 + 0.0842 + 0.0337 + 0.0067)\\ = 1 - 0.4405 = 0.5595$

(5) 기하분포(Geometric Distribution)

베르누이 시행에서 처음 성공까지 시도한 횟수를 분포화한 이산확률분포의 한 종류.

확률질량함수 $f(x) = p(1-p)^{x-1}$
기댓값 $E(X) = 1 / p$
분산 $Var(X) = (1-p) / p^2$

ex) 어떤 학생이 한 자격증 시험에 합격할 확률은 0.7이다. 이 학생이 시험에 응시한지 4번만에 붙을 확률은?

X를 응시횟수라고 하면, P(X)는 아래와 같이 구할 수 있다.
$P(X) = (1-p)^3 p = 0.3^3 \times 0.7 = 0.027 \times 0.7 = 0.0189$

(6) 음이항분포(Negative Binomial Distribution)

x번의 베르누이 시행에서 k번째 성공할 때까지 계속 시행하는 실험에서의 확률을 나타내는 이산확률분포.

전체 x번이 시행되었다면 x-1번 시행까지는 k-1번 성공을 했어야 한다. 이 경우 실패 횟수는 (x-1) - (k-1) = x - k가 된다.

확률질량함수 $f(x) = \binom{x-1}{k-1} (1-p)^{x-k}p^k$
기댓값 $E(X) = k\frac{1-p}{p}$
분산 $Var(X) = k\frac{1-p}{p^2}$

ex) 한국시리즈는 7전 4선승제로 치뤄진다. A팀과 B팀의 승률이 각각 0.7, 0.3이라고 할 때, A팀이 7전째에 우승(즉 7전째에 4승을 획득하는 것 )할 확률은?
$f(X=7) = \binom{x-1}{k-1}(1-p)^{x-k}p^k = \binom{7-1}{4-1}(1-0.7)^{7-4}0.7^4 = \binom{6}{3}0.3^30.7^4 = 0.13$

(7) 초기하분포(Hypergeometric Distribution)

N개의 표본이 있고 그 중 뽑고 싶은 표본은 K개가 있다. 초기하분포는 N개 표본에서 n개를 비복원추출했을 때 원하는 표본 k개가 뽑힐 확률을 나타내는 이산확률분포이다.

확률질량함수 $f_X(k) = \frac{\binom{K}k\binom{N-K}{n-k}}{\binom{N}n}$
기댓값 $E(x) = n\frac{K}{N}$
분산 $Var(x) - n\times \frac{K}{N}\times \frac{N-K}{N} \times \frac{N-n}{N-1}$

ex) 한 공장에서 제품을 생산하여 12개를 하나의 포장박스에 담는다. 검사자는 한 박스에서 3개를 무작위로 뽑아 검사한다. 박스에 5개의 불량품이 있을 때, 검사자가 뽑은 3개 중 불량품이 1개 포함되어있을 확률은?

$N = 12, n = 3, K = 5, k = 1$ 이므로, 아래와 같이 계산할 수 있다.
$f_X(1) = \frac{\binom{5}1\binom{12 - 5}{3 - 1}}{\binom{12}3} = \frac{\frac{5!}{1!4!}\times \frac{7!}{2!5!}}{\frac{12!}{3!9!}} = \frac{105}{220} = 0.48$

6) 연속확률분포의 종류

(1) 연속균등분포(Continuous Uniform Distribution)

분포가 특정 범위 내에서 균등하게 나타날 때 연속균등분포라고 하고, $X\sim U(a, b)$ 로 표기한다.

두 개의 매개변수 a, b를 받으며, 모든 사건은 [a, b] 범위 안에서 균등한 확률로 발생한다.

확률밀도함수 $f(x) = \frac{1}{b-a}$
평균 $\frac{a+b}{2}$
분산 $\frac{(b-a)^3}{12}$

ex) 정확히 5분 간격으로 도착하는 마을버스가 있다. 한 학생이 정류장에 임의로 도착해 버스가 도착할 때까지 기다리는 평균 시간과, 3분 이상 기다릴 확률은?

X: 학생이 정류장에 도착하는 시간에 대한 확률변수

X는 [0, 5]에서 연속균등분포를 따르므로, 확률밀도함수는 다음과 같다.
$f(x) = \frac{1}{5 - 0}, ~~~~ 0 \leq x \leq 5$
학생이 도착하여 기다리는 시간은 아래와 같으므로,
$h(x) = 5 - x$
기다리는 시간의 평균은
$\mu = E(h(x)) = E(5 - x) = 5 - E(X) = 5 - \frac{0 + 5}{2} = 2.5$
이며, 학생이 3분 이상 기다릴 확률은 다음과 같다.
$P(h(x)\geq 3) = P(5 - x \geq 3) = P(x\leq 2) = F(2) = \frac{2 - 0}{5 - 0} = \frac{2}{5}$
*이 때 F(X)는 누적확률밀도함수이다.

(2) 지수분포(Exponential Distribution)

사건이 서로 독립일 때, 일정 시간동안 발생하는 사건의 횟수가 포아송분포를 따른다면 한 개의 사건이 발생할 때까지 걸리는 시간( $\beta$ )에 대한 확률분포가 지수분포이며, $X\sim Exp(\beta)$ 로 표기한다.

확률밀도함수 $f(x) = \frac{1}{\beta}e^{-x/\beta}, x>0$
평균 $\int^\infty_{-\infty}xf(x)dx = \int^\infty_{0}x\frac{1}{\beta}e^{-x/\beta}dx = \beta$
분산 $\beta^2$

ex) 확률변수 X가 소방서에 구조요청 전화가 걸려오는 데 걸리는 시간이라고 하고, 평균적으로 전화가 오는 데 걸리는 시간이 20분이라고 하면 X의 확률밀도는
$f(x) = \frac{1}{20}e^{-x/20}$
이 된다.

구조요청 전화가 오기까지의 시간이 20분보다 오래 걸릴 확률 P(X>20)은 다음과 같이 계산할 수 있다.
$P(X>20) = \int^\infty_{20}e^{-x/20}dx = \frac{1}{20}\int^{\infty}_{20}e^{-x/20}dx \\ = \frac{1}{20}\left[e^{-\frac{x}{20}}(-20)\right]_{20}^{\infty} = \lim_{t\to\infty}(e^{-1}-e^{-t})= e^-1$

지수분포의 특징
- 포아송분포와의 관계
  - 포아송분포는 단위시간당 발생하는 사건의 횟수, 지수분포는 사건이 발생하기까지의 대기 시간에 대한 분포이다.
- 지수분포의 무기억성질(Memoryless Property)
  - $X \sim Exp(\beta)$ 일 때, 어떤 상수 a, b에 대해 $P(X>a+b|X>a) = P(X>b)$ 가 성립하는데, 이 성질을 지수분포의 무기억성질이라고 한다.
    지수분포를 따르는 확률변수의 조건부확률을 계산할 때 사전확률은 고려되지 않기 때문이다.
  ex) 어떤 부품의 수명이 평균 300시간이라고 하자. 이 부품이 100시간동안 작동중일 때, 앞으로 400시간동안 정상작동할 확률은 얼마일까?
  
  이 부품이 수명을 다하기까지 걸리는 시간에 대한 확률변수 X는 $\beta=300$ 인 지수분포를 따른다.
  $f(x) = \frac{1}{300}e^{-x/300}, x>0$
  100시간동안 동작한 부품이 앞으로 400시간동안 고장나지 않을 확률, 즉 수명이 다하기까지 400시간 이상이 소요될 확률은
  $P(X>100 + 400 | X > 100) = P(X>400)$
  와 같다는 점이 지수분포의 무기억성질이다. 왜 같은지를 확인해보는 과정은 아래와 같다.
  $P(X>100 + 400 | X > 100) = \frac{P(X>500)}{P(X>100)} = \frac{e^{-500/300}}{e^{-100/300}} = \frac{e^{-5/3}}{e^{-1/3}} = e^{-4/3}\\ P(X> 400) = \int^{\infty}_{400}\frac{1}{300}e^{-x/300}dx = \frac{1}{300}\int^{\infty}_{400}e^{-x/300}dx = \frac{1}{300}\left[e^{-\frac{x}{300}}(-300)\right]^\infty_{400} = \lim_{t\to\infty}(e^{-4/3} - e^{-t}) = e^{-4/3}$

(3) 정규분포(Normal Distribution)

가우스분포(Gaussian Distribution)라고도 불리는 정규분포는 표본을 통한 통계적 추정 및 가설검정이론의 핵심이 되는 분포로, 실제로 우리가 사회/자연 현상에서 접하는 여러 자료들의 분포가 정규분포를 띠고 있다. $X \sim N(\mu, \sigma^2)$ 로 표기한다.

확률밀도함수 $f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$
평균 $\mu$
분산 $\sigma^2$

정규분포의 특징
- 평균을 중심으로 대칭이며, 종모양(bell-shaped) 형태를 띤다.
- 정규분포의 모양과 위치는 평균과 표준편차에 의해 완전히 결정된다.
- 평균과 표준편차의 값과 무관하게, 정규분포 곡선과 X축 사이의 전체 면적은 항상 1이다.
- 정규분포를 갖는 확률변수, 즉 정규확률변수(Normal Random Variable)가 가지는 값은 평균 주위의 값이 대부분이며, 평균으로부터 좌우로 표준편차의 3배 이상 떨어진 값은 거의 나타나지 않는다.
- 정규분포곡선은 X축에 맞닿지 않으므로 확률변수 X가 취할 수 있는 값의 범위는 $-\infty < X < \infty$ 이다.

출처: https://www.w3schools.com/statistics/statistics_normal_distribution.php

(4) 표준정규분포(Standard Normal Distribution)

표준정규분포는 평균이 0, 표준편차가 1이 되도록 변환한 정규분포이다. 변환식은 다음과 같다.

Z = \frac{X-\mu}{\sigma}

이 변환을 정규화라고 하며, 정규화를 하고 나면 표준정규분포표에 따라 확률변수의 확률값 계산이 쉽게 가능하다.

ex) 어느 과목 수강생들의 점수는 평균이 80, 분산이 100인 정규분포를 따른다. 총 100명의 수강생 중에서 어떤 학생이 80점에서 85점 사이의 점수를 받았을 확률은 얼마일까? 그리고 82점 이하를 받을 학생은 몇 명일까?

한 학생이 80~85점 사이의 점수를 받을 경우를 표준정규화하면 다음과 같고, 표준정규분포표에 의거해 z가 0과 0.5 사이일 확률을 구할 수 있다.
$Z = \frac{X-\mu}{\sigma}=\frac{80-80}{10} = 0,~~~~~ Z = \frac{X-\mu}{\sigma}=\frac{85-80}{10} = 0.5\\ P(80\leq X \leq 85) = P(0 \leq Z \leq 0.5) = 0.1915$
82점 이하를 받을 학생은
$Z = \frac{X-\mu}{\sigma}=\frac{82-80}{10} = 0.2\\ P(X\leq 82) = P(Z\leq 0.2) = 0.5793$
이므로 총 58명 정도가 나올 수 있다.

(5) 감마분포(Gamma Distribution)

감마분포는 지수분포나 포아송분포의 매개변수와 연관이 있는 분포로, 포아송 과정에서 k개의 사건이 발생할 때까지의 대기시간( $\theta$ )에 대한 연속확률분포이다.

확률밀도함수 $f(x, k, \theta) = \frac{1}{\gamma(k)\theta^k}x^{k-1}e^{-x/\theta}, x>0$
기댓값 $k\theta$
분산 $k\theta^2$

감마분포의 특징
- k=1인 경우 감마분포는 지수분포와 동일하다.
- 신뢰성 이론이나 수명시험에 유용하게 사용된다.

출처: https://en.wikipedia.org/wiki/감마_분포

(6) 카이제곱분포(Chi-Squared Distribution)

카이제곱분포는 k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포**로, $X\sim x^2(k)$ 로 표기한다.

표준정규분포를 따르는 확률변수를 제곱한 값, 즉 분산을 다루는 분포이며, 따라서 양의 값만 존재한다.

출처: https://math100.tistory.com/44

표본의 수, 즉 k가 많아질수록 카이제곱분포의 그래프는 옆으로 넓적한 정규분포 형태가 된다. k는 자유도(Degree of Freedom)이라고도 하며, 카이제곱분포의 모수이다.

https://ko.wikipedia.org/wiki/카이제곱분포

확률밀도함수 $f(x;k) = \frac{1}{2^{\frac{k}{2}}\gamma(\frac{k}{2})}x^{\frac{k}{2}-1}e{-x/2}, ~~ x\geq 0$
기댓값 $k$
분산 $2k$

카이제곱분포의 특징
- $(k/2, \theta) = (k/2, 2)$ 인 경우 카이제곱분포는 감마분포와 동일하다.

(7) 스튜던트 t 분포(Student t-Distribution)

줄여서 t 분포라고도 불리는 스튜던트 t 분포는 정규분포의 평균을 측정할 때 주로 사용되는 분포로, $X\sim t(n-1)$ 로 표기한다.

스튜던트 t분포가 취하는 모수는 표본 크기 n 으로, 자유도는 n -1이다.

자유도가 n -1인 이유는 확률변수 X가 n개의 값을 갖고 이 n개의 평균값을 알 때 n-1개의 값이 정해지면 나머지 1개의 값은 자동적으로 결정되기 때문이다.

자유도 $\gamma$ 에 따른 스튜던트 t 분포의 모양은 아래와 같다.

출처: https://m.blog.naver.com/mykepzzang/220853827288

위와 같이 t 분포는 x=0을 기준으로 좌우 대칭이며, 자유도가 증가할수록 표준정규분포에 가까워진다.

보통 n이 30보다 크면 표준정규분포와 가깝다고 보고, 30보다 작으면 신뢰도가 낮아지기 때문에 표준정규분포보다 예측범위가 좀 더 높은 t 분포를 사용한다.

(8) F분포(F Distribution)

F분포는 두 가지 이상의 표본집단의 분산을 비교하거나 모집단의 분산을 추정하기 위한 F검정이나 분산분석 등에 주로 사용되는 분포로, $X\sim F(k_1, k_2)$ 로 표기한다.

두 개의 확률변수 $V_1, V_2$ 의 자유도(표본수)가 각각 $k_1, k_2$ 이고 두 변수 모두 카이제곱분포를 따른다고 할 때, 다음과 같이 정의된 확률변수는 자유도가 $k_1, k_2$ 인 F분포를 따른다고 한다.

즉, F분포의 확률변수는 두 개의 독립인 카이제곱분포 확률변수의 비(ratio)로 정의된다.

F = \frac{V_1/k_1}{V_2/k_2} \sim F(k_1, k_2)

F분포의 모양도 역시 자유도에 따라 달라진다.

![image-20211223215927544](/Users/jeon-yujin/Library/Application Support/typora-user-images/image-20211223215927544.png)

출처: https://blog.naver.com/mykepzzang/220855136935

분포 간의 관계

출처: https://m.blog.naver.com/mykepzzang/220853827288

4. 표본분포(Sampling Ddistribution, Finite-sample Distribution)

1) 모집단 분포와 표본분포

(1) 모집단의 모수(parameter)

모집단의 특성을 나타내는 특성값을 모수라고 정의한다.

평균 - $\mu$
표준편차 - $\sigma$

(2) 표본의 통계량

표본집단의 특성을 나타내는 특성값을 통계량이라고 정의한다.

평균 - $\bar{X}$
표준편차 - $S$

2) 표본평균의 표본분포

모집단으로부터 표본을 추출할 때 얻을 수 있는 모든 표본평균값( $\bar{X}$ )에 대한 확률분포이다.

3) 표본평균의 표본분포 통계량

(1) 표본평균의 표본분포의 평균

표본평균 $\bar{X}$ 의 표본분포의 평균은 모집단의 평균 $\mu$ 와 동일하다.

[증명]

모집단에서 크기가 n인 표본( $x_1, x_2, \cdots, x_n$ )을 추출한다고 할 때 발생할 수 있는 표본평균들의 평균은 다음과 같다.
$E(\bar{X}) = E\left(\frac{\Sigma^n_{i=1}x_i}{n}\right) \\ = \frac{1}{n}E(\Sigma^n_{i=1}x_i) = \frac{1}{n}E(x_1 + x_2 + \cdots + x_n) \\ = \frac{1}{n}[E(x_1) + E(x_2) + \cdots + E(x_n)]$
각 표본의 평균은 모집단의 평균과 같으므로( $E(x_i) = E(X)$ ), 다음이 성립하게 된다.
$E(\bar{X}) = \frac{1}{n}[\mu + \mu + \cdots + \mu] = \frac{1}{n}[n\mu] = \mu$

(2) 표본평균의 표본분포의 분산(표준편차)

모집단의 표준편차가 $\sigma$ 이면 표본분포의 표준편차는 $\sigma / \sqrt{n}$ 이라고 정의한다.

[증명]
$VAR(\bar{X}) = E(\bar{X}^2) - \mu^2 = E\left(\left[\frac{\Sigma^n_{i=1}x_i}{n}\right]^2\right) - \mu^2 \\ = \frac{1}{n^2}E([x_1 + x_2 + \cdots + x_n]^2) - \mu^2 \\ = \frac{1}{n^2}E(x_1^2 + x_2^2 + \cdots + x_n^2 + 2(\underbrace{x_1x_2 + \cdots + x_{n-1}x_n)}_{_nC_2\text{개}}) - \mu^2 \\ = \frac{1}{n^2}(E(x_1^2) + E(x_2^2) + \cdots + E(x_n^2) + 2(E(x_1)E(x_2) + \cdots + E(x_{n-1})E(x_n))) - \mu^2\\$
$E(x_i) = E(X)$ 이고 $_nC_2 = \frac{n(n-1)}{2}$ 이므로,
$= \frac{1}{n^2}\left(nE(X^2) + n(n-1)(E(X))^2\right) - \mu^2\\ = \frac{1}{n^2}\left(nE(X^2) + n(n-1)\mu^2\right) - \mu^2\\ = \frac{1}{n^2}\left(nE(X^2) + n^2\mu^2 - n\mu^2\right) - \mu^2\\ = \frac{1}{n}(E(X^2) + n\mu^2 - \mu^2) - \mu^2\\ = \frac{1}{n}(E(X^2) - \mu^2) + \mu^2 - \mu^2\\ = \frac{1}{n}\left(E(X^2) - \mu^2\right) = \frac{VAR(X)}{n} = \frac{\sigma^2}{n}$

(3) 표준오차

표본평균의 평균과 표준오차를 각각 $\mu_{\bar{X}}, \sigma_{\bar{X}}$ 로 표시하는데, $\sigma_{\bar{X}}$ 를 평균의 표준오차(Standard Error of the Mean)라고 한다.

모집단의 크기를 N, 표본의 크기를 n이라고 할 때, 모집단의 크기에 따른 표본평균의 표준오차는 다음과 같이 계산된다.

모집단의 크기가 무한대인 경우
$\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}$
모집단의 크기가 유한한 경우
$\sigma_{\bar{X}} = \sqrt{\frac{N-n}{N-1}} \cdot \frac{\sigma}{\sqrt{n}}$

여기서 $\sqrt{\frac{N-n}{N-1}}$ 은 유한 모집단 수정계수(Finite Population Correction Factor)라고 한다. 표본집단의 크기 n이 모집단 크기의 5% 이상인 경우 이 계수를 이용해 표준편차 값을 산출한다.

4) 중심극한정리(Central Limit Theorem)

동일한 확률분포를 가진 독립 확률변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다.

확률변수 $X_1, X_2, \cdots, X_n$ 들이 서로 독립이고, 같은 확률분포를 가지며, 그 확률분포의 평균과 표준편차가 유한하다면, 평균 $S_n = \frac{X_1 + X_2 + \cdots + X_n}{n}$ 의 분포는 기댓값 $\mu$ , 표준편차 $\sigma / \sqrt{n}$ 인 정규분포 $N(\mu, \sigma^2/n)$ 에 수렴한다.

중심극한정리의 의미
- 모집단의 분포가 무엇이든 상관없이 표본의 수가 큰 표본분포들의 표본평균의 분포는 정규분포를 이룬다.
- 정규분포는 다시 표준정규분포로 변환이 가능하므로, 표본의 수가 충분히 많은 표본분포들이라면 실제 모집단의 분포를 모르더라도 우리가 알고있는 표준정규분포의 결과들을 이용해 통계적인 추정 및 판단을 할 수 있다.

5) 표본평균의 표준화

표본평균 $\bar{X}$ 는 정규분포의 확률변수이므로 다음과 같이 표준화할 수 있다.

Z = \frac{\bar{X}-\mu}{\sigma_{\bar{X}}} = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} ~~~ (\text{단, }Z\sim N(0,1))

Z는 표본평균 $\bar{X}$ 가 모평균 $\mu$ 로부터 표본평균들의 표준편차인 표준오차의 몇 배만큼 떨어져있는지를 표시하는 값이다. 따라서 다음과 같은 확률관계를 나타낼 수 있다.

P\left(\mu - k\frac{\sigma}{\sqrt{n}} \leq \bar{X} \leq \mu + k\frac{\sigma}{\sqrt{n}}\right) = P\left(-k \leq \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \leq k\right)

이 때 k는 $\mu$ 에서 얼만큼 떨어진 값인지를 표시하기 위한 계수이며, 대표적으로 1, 2, 3 과 같은 값을 사용한다. 예를 들어 k=1이면 $\bar{X}$ 가 $\mu$ 로부터 표준오차의 -1배부터 1배 사이에 떨어져 있을 확률을 구하게 되는 것이고, 이 값은 0.68이 된다.

6) 표본비율(Sample Proportion)

표본비율

성공 또는 실패로 구분되는 결과를 조사하기 위해 크기가 N인 모집단에서 n개의 표본을 추출할 때, n개의 표본 중 성공으로 나타나는 표본의 비율을 표본비율이라고 하며, 보통 $\hat{P}$ 로 표시한다.

\hat{P} = \frac{X}{n} ~~~~(X = \text{표본 중 성공으로 나타난 표본 수},~~ n = \text{표본 수})

모비율

모집단에서 성공으로 나타나는 개체 수의 비율은 모비율이라고 한다.

전유진

나는야 데이터쟁이

이전 포스트

PART02 빅데이터 탐색 - CHAPTER02 데이터 탐색 - (2)

다음 포스트