신뢰구간

Kiwoong Park·2022년 2월 8일
0

모든 추정치는 불확실성을 내포하고 있기 때문에, 전문가라 하더라도 특정 단일 수치를 제시하기는 쉽지 않고 이를 보완하기 위해 불확실성을 인정하면서 어떤 범위로 추정치를 제시하는 것이 일반적이다. 신뢰구간은 통계적 샘플링 원칙에 근거하여 범위로 추정치를 제시하는 방법이라고 할 수 있다.

신뢰구간은 항상 90% 혹은 95%의 신뢰수준(confidence level)과 같이 높은 백분률로 표현되는 포함 수준과 함께 나온다. 90% 신뢰구간이란, 표본통계량의 부트스트랩 표본분포의 90%를 포함하는 구간을 말한다. 더 일반적으로, 표본추정치 주위의 x% 신뢰구간이란, 평균적으로 유사한 표본추정치 x% 정도(비슷한 샘플링 절차를 진행했을 때)가 포함되어야 한다.
즉, 한 설문조사에서 어떤 정치인의 지지율이 38~42%인 신뢰구간이 95%일 때, 100번을 비슷한 방식으로 설문조사를 했을 때 95번 정도가 해당 정치인의 지지율이 38~42% 사이로 나온다고 얘기할 수 있다.

표본크기 n과 관심 있는 표본통계량이 주어졌을 때, 부트스트랩 신뢰구간을 구하는 법은 다음과 같다.

  1. 데이터에서 복원추출 방식으로 크기 n인 표본을 뽑는다(재표본추출)
  2. 재표본추출한 표본에 대해 원하는 통계량을 기록한다.
  3. 1~2단계를 R번 반복한다.
  4. x% 신뢰구간을 구하기 위해, R개의 재표본추출한 결과의 분포에서 양쪽 끝에서 [(100-x)/2%] 만큼 잘라낸다.
  5. 절단한 점들은 x% 부트스트랩 신뢰구간의 양 끝점이다.

부트스트랩은 대부분의 통계량 혹은 모델 파라미터에 대한 신뢰구간을 생성하는 데 사용할 수 있는 일반적인 기법으로, 컴퓨터가 없던 시기나 연산량이 작았던 시기에는 수식, 특히 t-분포로 구한 신뢰구간을 활용하였다.

물론 표본 결과를 얻었을 때, 정말로 궁금한 것은 '참값(모집단의 통계량)이 일정 구간에 있을 확률을 얼마인가'이다. 신뢰구간이 이 질문에 대한 답을 주는 것은 아니지만, 결국 대부분의 사람이 그 대답을 설명하는 근거로 사용할 수는 있는 것이다.
신뢰구간과 관련된 확률 문제는 '표본추출 절차와 모집단이 주어지면 ~ 할 확률은 얼마인가?'라는 문구로 시작이 된다. 반대로 '표본 결과가 주어졌을 때 모집단에 대해 어떤 것이 참일 확률은 얼마인가?' 라는 질문은 더 복잡한 계산과 불확실한 요소를 필요로 한다.

profile
You matter, never give up

0개의 댓글