confidence level α와 쌍으로 표기된다. Conventional하게 95%가 가장 많이 사용되고 90%, 99%도 간혹 사용된다.
Probability가 아니다.
우리는 Population parameter를 모르기 떄문에 샘플로부터 구한 estimate로 parameter를 추정해야 한다.
Population parameter는 고정된 값이다. chances는 population이 아니라 sample에 존재한다. (샘플을 어떻게 뽑느냐에 따라)
population mean을 추정하는 경우라고 가정해보자. 이때 confidence interval (with confidence level α)의 정확한 의미는 다음과 같다: "샘플을 총 100번 뽑아 만든 100개의 confidence interval(샘플은 매번 달라지기 때문에 각 confidence interval은 약간씩 바뀐다)들은 population mean을 α번 포함한다."
Confidence inteval via the Central Limit Theorem (CLT)
CLT를 적용할 수 있는 estimate라면 각 confidence level에 대응되는 z-score (z)를 바로 적용하여 신뢰 구간을 계산할 수 있다. SE는 standard error를 의미한다.
estimate±zSE
현재 추정하는 Population parameter가 mean이라고 가정하자. sample size가 크다면 위 식을 바로 사용할 수 있다.
또한 standard error는 sampling distribution의 standard deviation이다. mean의 경우에는 standard error가 nσ 로 잘 알려져있다.
하지만 마찬가지로 σ는 population parameter이기 때문에 우리는 이 값을 모른다. (애초에 population을 모르기 때문에 샘플을 뽑은거다!. 알고 있다면 신뢰 구간을 계산할 필요가 없다.)
Bootstrap principle 덕분에 σ 대신 sample standard deviation인 s를 사용할 수 있다.
다만 bootstrap에는 몇 가지 중요한 assumption이 있다.
Sample is a representative of the population.
Sample size is large enough.
margin of error
confidence intervald의 width를 의미한다.
이 width를 줄이는 방법은 두 가지다.
sample size를 늘린다. (average의 confidence interval 식을 보면 샘플 크기(n)의 제곱근에 반비례함을 알 수 있다.
confidence level을 낮춘다. 이 방법은 z-score 값을 줄임으로써 width를 좁히는 방식이다.