통계_BASIC

TaeHwi Kang·2022년 10월 9일

통계

Chapter 1. 통계학이란

통계학

ㆍ산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다

기술통계학(descriptive statistics)

데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론

추론통계학(inferential statistics)

모집단으로 부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론

1. 데이터와 그래프

변수(Variable)

통계학에서의 변수는 조사 목적에 따라 관측된 자료값을 변수라고 함, 해당 변수에 대하여 관측된 값들이 바로 자료(Data)가 된다

질적자료

ㆍ관측된 데이터가 몇 개의 범주로 구분하여 표현할 수 있는 데이터를 의미한다 (성별, 주소지(시군구), 업종 등)
ㆍ데이터 입력시 1은 남자, 2는 여자로 표현 가능하나 여기서 숫자의 의미는 없다 (순서형 변수: 교육수준, 건강상태)

양적 자료

ㆍ관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고 있다
ㆍ숫자를 표현할 때는 이산형 데이터와 연속형 데이터로 구분할 수 있다

데이터 시각화

ㆍ데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을말한다.
ㆍ데이터 시각화의 목적은 도표(graph)라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것이다

2. 데이터의 기초통계량

기초 통계량

ㆍ통계량(statistic)은 표본으로 산출한 값으로, 기술 통계량이라고도 표현한다
ㆍ통계량을 통해 데이터(표본)가 갖는 특성을 이해 할 수 있다

중심 경향치

ㆍ표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심경향치라고 한다
ㆍ대표적인 중심 경향치는 평균이며, 그 외 중앙값, 최빈값, 절사 평균 등이 있다
ㆍ평균은 모집단으로 부터 관측된 n개의 x가 주어 졌을때 아래와 같이 정의된다
ㆍ평균은 표본으로 추출된 표본 평균(sample mean)이라고하며, 모집단의 평균을 모평균이라고 한다

1) 중앙값(median)
ㆍ평균과 같이 자주 사용하는 값으로 표본으로 부터 관측치를 크기순으로 나열 했을 때, 가운데 위치하는 값을 의미
ㆍ관측치가 홀수 일 경우 중앙에 취하는 값이고, 짝수 일 경우 가운데 두개의 값을 산술 평균한 값
ㆍ이상치가 포함된 데이터에 대해서 사용

2) 최빈값(mode)

관측치 중에서 가장 많이 관측되는 값
옷사이즈와 같이 명목형 데이터의 경우 사용

산포도

ㆍ데이터가 어떻게 흩어져 있는지를 확인하기 위해서는 중심경향치와 함께 산포에 대한 측도를 같이 고려해야 한다
ㆍ데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있다

1) 범위(Range)
ㆍ데이터의 최대값과 최소값의 차이를 의미한다

2) 사분위수(quartile)
ㆍ전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫 번째를 제1사분위수(Q1), 두 번째를 제2사분위수(Q2), 세 번째를 제3사분위수(Q3)이라고 한다

사분위수 범위(interquartile range): IQR = 제 3사분위수(Q3) – 제1사분위수(Q1)

3) 백분위수(percentile)
ㆍ전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 말하며, 제p백분위수는 p%에 위치한 자료 값을 말한다
ㆍ데이터를 오름차수로 배열하고 자료가 n개가 있을 때, 제(100*p) 백분위수는 아래와 같다
(1) np가 정수이면, np번째와 (np + 1)번째 자료의 평균
(2) np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료

분산(variance)

ㆍ데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도
ㆍ데이터의 각각의 값들의 편차 제곱합으로 계산

표준 편차(standard deviation)

ㆍ분산의 제곱근으로 정의

변동계수(Coefficient of Variation: CV)

ㆍ평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용한다
ㆍ변동계수는 표준편차를 평균으로 나누어서 산출하여 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교하며 실제 분석에서 자주 사용한다

왜도(skew)

ㆍ자료의 분포가 얼마나 비대칭적인지 표현하는 지표이다
ㆍ왜도가 0이면 좌우가 대칭이고, 0에서 클수록 우측꼬리가 길고
0에서 작을수록 좌측 꼬리가 길다

첨도(kurtosis)

ㆍ확률분포의 꼬리가 두꺼운 정도를 나타내는 척도이다
ㆍ첨도값(K)이 3에 가까우면 산포도가 정규분포에 가깝다
ㆍ3보다 작을 경우에는(K<3) 산포는 정규분포보다 꼬리가 얇은 분포로 생각할 수 있다, 첨도값이 3보다 큰 양수이면(K>3) 정규분포보다 꼬리가 두꺼운 분포로 판단

chapter 2. 확률이론

1.확률

확률(probability)

ㆍ모든 경우의 수에 대한 특정 사건이 발생하는 비율이다. 대체로 수학 외에서는, 0과 1 사이의 소수 혹은 분수나 순열 등으로 나타내기보다는, 다른 비율을 나타낼 때처럼 0과 1 사이의 확률에 100을 곱하여 0과 100 사이의 백분율(%)로 나타내거나 옛날처럼 할·푼·리로 나타내기도 한다.

확률의 고전적 정의

ㆍ어떤 사건의 발생 확률은 그것이 일어날 수 있는 경우의 수 대 가능한 모든경우의 수의 비이다. 단, 이는 어떠한 사건도 다른 사건들보다 더 많이 일어날 수 있다고 기대할 근거가 없을 때, 그러니까 모든 사건이 동일하게 일어날 수 있다고 할 때에 성립한다.

표본 공간(Sample Space)

ㆍ표본 공간이란 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합
사건 A가 일어날 확률을 P(A)라고 하고, 표본 공간(S)가 유한집합일때 표본 공간의 모든 원소들이 일어날 확률이 같으면 아래와 같다

P(A) = 사건 A가 일어날 원소의 수 / 표본공간이 S의 원소의수

통계적 확률 정의

ㆍ어떤 시행을 N번 반복했을 때, 사건 A에 해당하는 결과가 r번 일어난 경우 r/N 이고, 사건 A가 일어날 상대도수라고 한다
ㆍN이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값을 lim(r/N) 을 사건 A의 통계적 확률 또는 경험적 확률 이라고 한다

확률의 성질

1) 합사건(union) : 사건 A 또는 사건B가 일어날 확률 A U B
곱사건(intersection) : 사건 A와 사건B가 동시에 일어날 확률 A ∩ B

2) 배반사건(mutually exclusive event) : 사건 A와 사건B가 동시에 일어날 수 없을 경우 A ∩ B = ∮

3) 여사건(complement) : 사건A가 일어나지 않을 확률

4) ! (Factorial) : n개를 일렬로 늘여 놓은 경우의 수를 n!로 표현헌다.

n! = n(n-1)(n-2)…2*1

5) 순열(Permutation) : 순서를 고려하여 n개 중 r개를 뽑아서 배열하는 경우의 수

nPc = n! / (n-r)!

6) 조합(Combination) : 순서를 고려하지 않고 n개중 r개를 뽑아서 배열하는 경우의 수

nCr = nPr / r! = n! / r! * (n-r)!

7) 조건부확률(conditional probability): 어떤 사건 A가 발생한 상황에서(주어졌을 때) 또 하나의 사건 B가 발생할 확률이다

P(A∩B) : P(A) * P(B|A)  = P(B) * P(A|B)
사건 A와 B가 독립일 경우 P(A∩B) = P(A) * P(B)

2. 확률 변수

확률 변수(random variable)

ㆍ표본공간에서 각 사건에 실수를 대응시키는 함수를 확률 변수라고 한다
확률 변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변한다
ㆍ일반적으로 확률 변수는 대문자로 표현하며, 확률변수의 특정값을 소문자로 표현한다

확률 변수: X, Y 등 대문자 표현
확률 변수의 특정값: x, y등 소문자로 표현

1) 이산 확률 변수(discrete random variable): 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
2) 연속 확률 변수(continuous random variable): 연속형 또는 무한대와 같이 셀 수 없는 경우

확률 변수의 평균 : 기대값 이라고 표현하기도 하며, 수식은 아래와 같음
E(X) = ∑xP(x)
 
확률 변수의 분산
Var(X) = 1/N ∑(x-u)^2

기대값의 성질
a, b가 상수이고, X, Y를 임의의 확률 변수라고 할 때 다음이 성립한다.
(a) E(a) = a
(b) E(aX) = aE(X)
(c) E(aX+b) = aE(X) + b
(d) E(aX±bY) = aE(X) ± bE(Y)
(e) X, Y가 독립 일때 E(XY) = E(X) * E(Y)

분산의 성질
a, b가 상수이고, X, Y를 임의의 확률 변수라고 할 때 다음이 성립한다.
(a) Var(a) = 0
(b) Var(aX) = a^2Var(X)
(c) Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)
(d) Var(aX±bY) = a^2Var(X) ± b^2 Var(Y) + 2Cov(X,Y)
(e) X, Y가 독립 일때 Var(XY) = 0
(f) Var(X) = E(X^2) - [E(x)]^2

공분산

ㆍ2개의 확률변수의 선형 관계를 나타내는 값으로, 하나의 값이 상승할 때 다른 값도 상승한다면, 양의 공분산을 가지고 반대로 하나의 값이 상승할 때 하락한다면 음의 공분산을 가진다

Chapter 04. 확률 분포

1. 이산형 확률 분포

확률 분포(probability distribution)

확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수

베르누이 분포, 이항분포, 포아송분포, 기하분포, 음이항분포, 초기하분포

이산형 균등 분포(discrete uniform distribution)

ㆍ확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포를 이산형 균등 분포라고 한다

ㆍfx(x) = P(X = x) = 1/N , where x = 1, 2, ... , N
X ~ U(a,b) 표현

이산형 균등분포의 기대값 : n+1 / 2 , 분산 : n^2-1 / 12
기대값: E[X] = ∑ xf(x) = (1/n) ∑ f(x) = (1/n) * (n * (n+1) / 2)
분산: Var[X] =  E(X^2) - (E(X))^2  = (N+1)(2N+1) / 6 − ((N+1) / 2)^2 = (N+1)(N-1) / 12

베르누이 시행(Bernoulli trial)

ㆍ각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행을 베르누이 시행이라고 한다
ㆍ베르누이 시행에서 성공이 ‘1’, 실패가 ‘0’의 값을 갖을 때 확률 변수 X의 분포를 베르누이 분포(Bernoulli distribution)라고 하며 다음과 같이 정의한다

베르누이 분포의 평균: P, 분산: p(1-p)
기대값 E[X] = 1 · p + 0 · (1 - p) = p
분산 Var[X] = E(X-p)^2 = (0 - p)^2 · (1 - p) + (1 - p)^2 · p = p(1 - p)

이항분포(Binomial distribution)

ㆍ연속적인 베르누이 시행을 거처 나타나는 확률 분포
ㆍ서로 독립인 베르누이 시행을 n번 반복해서 실행 했을 때, 성공한 횟수 X의 확률 분포

fx(x) = P(X = x) = n! / x! (n-x)!
X ~ B(n , p) 
이항분포의 기대값: np, 분산: np(1-p)

포아송 분포(Poisson distribution)

ㆍ어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포

포아송 분포의 조건
1) 어떤 단위구간(예, 1일)동안 이를 더 짧은 작은 단위의 구간(예: 1시간)로 나눌 수 있고 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정
2) 두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
3) 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
4) 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례함
5) 포아송분포 확률 변수의 기댓값과 분산은 모두 λ

fx(x) = P(X = x) = (e^-λ · λ^x) / x! , x
X ~ posson(λ)

이항 분포의 포아송 근사

ㆍ확률 변수 X가 X ~ B(n,p)이고, n이 충분히 크고, p가 아주 작을 때, X의 분포는 평균이 λ = np인 포아송 분포로 근사 시킬 수 있다
ㆍ보통 n이 클때, np<5를 만족하게 p가 작으면 근사 정도가 좋다고 함 X ~ poisson(np)

기하분포(geometric distribution)

ㆍ어떤 실험에서 처음 성공이 발생하기 까지 시도한 횟수 X의 분포, 이때 각 시도는 베르누이 시행을 따른다

fx(x) = P(X = x) = (1- p)^(x-1) · p, x = 1, 2, ...
X ~ Geometric(p)
기하분포의 기대값 : 1/p , 분산 : (1-p) / p^2

음이항분포(negative binomial distribution)

ㆍ어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때 까지 발생한 성공 횟수 X의 확률 분포

X ~ NB(r, p)
기하분포의 기대값 : r(1-p) / p , 분산 : r(1-p) / p^2

2. 연속형 확률 분포

확률밀도함수(probability density function)

ㆍ연속형 확률 변수 X에 대해서 함수 f(x) 가 아래의 조건을 만족하면 확률밀도함수라고 한다
1) P(X = a) = P(a ≤ X ≤ a) = ∫ f(x) dx = 0
2) P(a ≤ X ≤ b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a < X < b)

확률밀도함수의 평균과 분산
E(X) = ∫xf(x) dx, Var(x) = E(X - u)^2 = ∫(x-u)^2 f(x) dx

누적분포함수(cumulative density function)

ㆍ확률밀도함수를 적분하면 누적분포함수가 된다

균일분포(uniform distribution)

ㆍ확률 변수가 X가 a와 b사이에서 아래와 같은 확률 밀도 함수(pdf)를 같다

정규 분포(normal distribution)

ㆍ정규 분포는 19세기 최대 수학자라고 불리는 독일의 가우스에 의해 제시된 것으로 가우스 분포라고도 한다
ㆍ확률 밀도 함수는 확률 변수 X가 평균이 u 이고, 분산이 σ^2인 정규분포를 따를 때 아래와 같다

정규 분포(normal distribution)의 평균과 분산
평균 : E(X) = u
분산 : Var(X)  = σ^2, 표준편차: σ

표준 정규 분포(standard normal distribution)

ㆍ확률 변수 X ~ N(u, σ^2) 정규 분포를 따르고, 확률 변수 Z = (X - u) / σ 라고 할 때 확률변수

Z ~ N(0, 1)

ㆍ이항분포의 정규 근사
X ~ B(n , p) 일 때, 확률 변수 X는 n이 충분히 크면 근사적으로 정규 분포 X ~ N(np, np(1-p))를 따른다

지수분포(exponential distribution)

ㆍ단위 시간당 발생할 확률 Ö인 어떤 사건의 횟수가 포아송 분포를 따른다면, 어떤 사건이 처음 발생할때까지 걸린 시간 확률 변수 X는 지수 분포이다

지수 분포의 pdf  f(x) = λe^(-λx) , x ≥ 0
X ~ Exp(λ)

지수 분포의 cdf f(x) = 1 - e^(-λx) , x ≥ 0

ㆍ지수 분포는 연속 되는 사건의 사이의 대기 시간도 지수 분포이다

지수 분포의 평균과 분산
평균 : E(X) = 1 / λ
분산 : Var(X) = 1 / λ^2

Chapter 05. 모집단과 표본 분포

1. 모집단과 표본

표본추출(Sampling)

ㆍ모집단으로 부터 표본을 추출 하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 한다

모집단에서 표본을 추출방법

ㆍ모집단에서 표본을 추출하는 방법에는 여러가지가 있다

복원추출(Sampling with replacement)

ㆍ모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있다

비복원추출(Sampling without replacement)

모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법

Random Sampling

ㆍ모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출하는 방법

불균형 데이터(Imbalanced Data)의 문제

ㆍ데이터가 불균형 데이터 일 경우 문제가 생긴다
ㆍ우리가 예측모형을 만드는 목적은 관심이 있는 대상이 발생할 확률을 예측하는 경우가 대부분임, 그런데 예측 대상이 전체 대비 아주 낮다면? 모형의 성능이 괜찮을가? (ex: 신용 평가 모형 개발, 제조 불량 예측 등)
1) Sampling 기법을 통하여 해결
2) 모델을 통한 성능 개선(ex: Cost-sensitive learning)

Sampling 기법

ㆍ관심의 대상의 아주 비율이 낮은 경우
1) Over Sampling
ㆍ타겟 데이터 적은 class의 수를 많은 class의 비율만큼 증가 시킨다(일정 비율로 복원추출 하는 개념)
ㆍ과도적합의 문제 발생할 수 있다

2) Under sampling
ㆍ타겟 데이터의 많은 class의 수를 적은 class의 비율만큼 감소 시킨다
ㆍ임의로 뽑은 데이터가 biased(편향)될 수 있고, 모형의 성능이 떨어질 수 있다

2. 표본 분포

통계량(Statistic)

ㆍ표본에 기초하여 계산되는 수치 함수를 통계량이라고 한다

표본분포(Sampling distribution)

ㆍ통계량들이 이루는 분포를 표본 분포라고 한다

표본 평균 -X의 기대값
E(-X) = u

표본 평균 -X의 분산
Var(-X) = σ^2 / n

ㆍ모집단의 분포가 N(u, σ^2) 이라고 할때,확률표본 X1, X2, X3, … , Xn 은 ~ iid N(u, σ^2), (independent and identically distribution)

-X ~ N(u, σ^2/n), Z ~ N(0,1)

중심극한 정리(central limit theorem)

ㆍ평균이 u 이고 σ^2인 임의의 모집단에서 랜덤 표본 X1, X2, … , Xn 을 추출할 때 표본의 크기 n이 충분히( n ≥ 30) 크면, 표본 평균 -X는 근사적으로 정규분포 N(u, σ^2/n) 을 따른다

2. 표본분포

카이제곱 분포(Chi-square distribution)

ㆍ확률 변수 Z(2 1), Z(2 2), … , Z(2 n) 가 표준 정규 분포를 따른다면, 확률 변수 Z는 Z(2 1) + Z(2 2) + … + Z(2 n)
ㆍZ ~ X^2 (v), Z 가 카이제곱 분포를 따를 때

E(X) = v , Var(x) = 2v

ㆍ카이제곱 분포는 감마 분포에서 a = v/2 , λ = 2 와 같다
ㆍ카이제곱 분포는 범주형 자료 분석에서 활용한다

자유도(degree of freedom)

ㆍ표본수-제약조건의 수 또는 표본수-추정해야 하는 모수의 수를 의미하며 일반적으로 n-1을 사용한다
ㆍ카이제곱 분포는 자유도 v의 크기에 따라 모양이 달라짐 자유도가 커질수록 분포가 좌우 대칭 형태로 된다
ㆍ카이제곱 분포는 자유도가 커지면서 표준정규 분포에 근사하며, v ≥ 30이면, 확률을 근사적으로 정규분포로 구할 수 있다

T분포(t-distribution)

ㆍ만약 확률 변수 X가 정규분포를 따르고 모표준편차 σ를 안다면 Z = (X - u) / (σ / n) ~ N (0, 1)만약 모표준편차 σ를 모른다면, σ를 대신해서 표본표준편차 s를 이용하여 확률변수 Z를 정의한다

t = (x - u) / (σ / n)  ~ t(v), 여기서 v의 자유도는 n-1 이다

Chapter 06. 추정

1. 추정

추정(estimation)

ㆍ모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것을 추정이라고 한다

추정량(estimator)

ㆍ표본 평균으로 모평균을 추정할 때 표본 평균을 모평균에 대한 추정량이라고 한다

모수를 추정 하는 방법

ㆍ모수를 추정 하는 방법에는 점추정(point estimation) 과 구간 추정(interval estimation)이 있다
1) 점추정 : 모수를 하나의 특정값으로 추정 하는 방법
2) 구간 추정 : 모수가 포함될 수 있는 구간을 추정하는 방법

점추정은 아래의 대표적인 성질을 갖음

1) 일치성(Consistency) : 표본의 크기가 모집단의 크기에 근접해야 한다
표본이 크기가 크면 클수록(모집단에 가까울 수록) 추정량의 오차가 작아진다

2) 불편성(unbiased estimator): 추정량이 모수와 같아야 함
모수가 θ 이고 추정량이 ^θ 라고 정의하면, E[^θ] = θ 이고, 이를 불편 추정량 이라고 한다

즉, E[^θ] = θ 일때의 추정량을 불편 추정량이라고 하고, 같지 않다면 편의(biased) 있다고 한다

3) 유효성(efficiency) : 추정량의 분산이 최소값이어야 함
모수에 대한 추정량의 분산이 작을 수록 추정량이 효율적이다는 의미임

만약 모수 θ의 불편 추정량이 ^θ1, ^θ2 이라면 Var(^θ1) < Var(^θ2) 이면, ^θ1 효율적인 추정량이다

4) 평균오차제곱(Mean Squared Error, MSE): 평균오차제곱이 최소값이어야 한다

간추정

ㆍ모수가 포함될 수 있는 구간을 추정하는 방법

신뢰구간(confidence level)

ㆍ추정값이 존재하는 구간에 모수가 포함될 확률
ㆍ신뢰 수준은 100 ∗ (1- a)% 로 계산 하며, a는 오차 수준이다
ㆍ신뢰 수준 95%라는 것은 구간 추정된 값의 오차가 발생할 확률이 5%라는 것을 의미한다
ㆍ이 오차를 유의 수준(significant level)이라고 하며, p= 0.05라고 한다

모비율의 점추정

ㆍ비율에 대한 추정으로 우리가 원하는 속성(class)에 속하면 ‘1’ 아니면 ‘0’일 때, 1의 속성을 갖는 것의 개수를 X라고 하면 X ~ B(n,p) 이다
ㆍ이 때 모비율의 점추정량을 표본 비율(sample proportion)이라고 한다(^p = X/n)

E(^p) = p, Var(^p) = p(1-p) / n

모비율의 구간 추정

ㆍ모비율 구간 추정에서 정규분포의 근사가 가능한 대표본은 보통 np>5, n(1-p)>5 를 동시에 만족 해야 한다

모평균 차이의 추정(점추정)

E(-X_1 - -X_2) = E(-X_1) - E(-X_2) = u_1 - u_2
Var(-X_1 - -X_2) = Var(-X_1) - Var(-X_2) = σ^2_1 / n_1 + σ^2_2 / n_2

모평균 차이의 추정(구간추정: 소표본, 모분산을 모르는 경우)

두 모집단의 분산을 아는 경우에는 대표본과 동일하게 추정 가능하지만,
모르는 경우에는 등분산 가정이 필요 (두 모집단의 분산이 같다는 가정이 필요 (σ^2_1 = σ^2_2 = σ^2)

모비율 차이의 추정(점추정)

E(^p_1 - ^p_2) = E(^p_1) - E(^p_2) = p_1 - p_2
Var(^p_1 - ^p_2) = Var(^p_1) - Var(^p_2) = p_1(1 - p_1) / n_1 + p_2(1 - p_2) / n_2

TaeHwi Kang

스터디 노트

이전 포스트

알고리즘

다음 포스트