Confidence Intervals

Dayne·2024년 11월 28일

Confidence interval (신뢰 구간)

  • confidence level α\alpha와 쌍으로 표기된다. Conventional하게 95%가 가장 많이 사용되고 90%, 99%도 간혹 사용된다.
  • Probability가 아니다.
    • 우리는 Population parameter를 모르기 떄문에 샘플로부터 구한 estimate로 parameter를 추정해야 한다.
    • Population parameter는 고정된 값이다. chances는 population이 아니라 sample에 존재한다. (샘플을 어떻게 뽑느냐에 따라)
  • population mean을 추정하는 경우라고 가정해보자. 이때 confidence interval (with confidence level α\alpha)의 정확한 의미는 다음과 같다: "샘플을 총 100번 뽑아 만든 100개의 confidence interval(샘플은 매번 달라지기 때문에 각 confidence interval은 약간씩 바뀐다)들은 population mean을 α\alpha번 포함한다."

Confidence inteval via the Central Limit Theorem (CLT)

  • CLT를 적용할 수 있는 estimate라면 각 confidence level에 대응되는 z-score (zz)를 바로 적용하여 신뢰 구간을 계산할 수 있다. SESE는 standard error를 의미한다.
    estimate ± zSEestimate\space\pm\space zSE
  • 현재 추정하는 Population parameter가 mean이라고 가정하자. sample size가 크다면 위 식을 바로 사용할 수 있다.
  • 또한 standard error는 sampling distribution의 standard deviation이다. mean의 경우에는 standard error가 σn\frac{\sigma}{\sqrt{n}} 로 잘 알려져있다.
  • 하지만 마찬가지로 σ\sigma는 population parameter이기 때문에 우리는 이 값을 모른다. (애초에 population을 모르기 때문에 샘플을 뽑은거다!. 알고 있다면 신뢰 구간을 계산할 필요가 없다.)
  • Bootstrap principle 덕분에 σ\sigma 대신 sample standard deviation인 ss를 사용할 수 있다.
  • 다만 bootstrap에는 몇 가지 중요한 assumption이 있다.
    1. Sample is a representative of the population.
    2. Sample size is large enough.

margin of error

  • confidence intervald의 width를 의미한다.
  • 이 width를 줄이는 방법은 두 가지다.
    1. sample size를 늘린다. (average의 confidence interval 식을 보면 샘플 크기(n)의 제곱근에 반비례함을 알 수 있다.
    2. confidence level을 낮춘다. 이 방법은 z-score 값을 줄임으로써 width를 좁히는 방식이다.
profile
훗날 나를 위한 기록

0개의 댓글