부트스트랩

Kiwoong Park·2022년 2월 7일
0

부트스트랩

어원? Bootstrap, 즉 Boot(장화, 부츠)에 딸린 손잡이라는 뜻으로 장화를 손쉽게 신을 수 있게 하는 장치를 의미하며, 통계적으로 의미를 해석해보자면 표본 스스로의 리샘플링(재표본추출)을 통해서 필요한 것을 찾는다 정도로 해석할 수 있겠다.

통계량이나 모델 파라미터(모수)의 표본분포를 추정하는 쉽고 효과적인 방법은 현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산하는 것이다. 이러한 절차는 부트스트랩(bootstrap)이라 하며, 데이터나 표본통계량이 정규분포를 따라야 한다는 가정은 꼭 필요하지 않다.

개념적으로, 부트스트랩은 원래 표본을 수천, 수백만 번 복제하는 것이라고 생각할 수 있다. 이를 통해 원래 표본으로부터 얻어지는 모든 정보를 포함하는 가상 모집단을 얻게 된다. 그런 다음 이 가상 모집단으로부터 표본분포를 추정할 목적으로 표본을 수집할 수 있다.

즉, 표본을 다시 작은 모집단 이라고 생각하고, 이 작은 모집단에서 표본을 계속 추출하여 평균이나 표준편차를 계산한 뒤 이 과정을 1,000번, 10,000번 반복하는 방식

크기 n의 샘플의 평균을 구하는 부트스트랩 재표본추출 알고리즘은 다음과 같다.
1. 샘플 값을 하나 뽑아서 기록하고 돌려 놓는다.
2. n번 반복한다.
3. 재표본추출된 값의 평균을 기록한다.
4. 1~3단계를 R번 반복한다.
5. R개의 결과를 사용하여

  • 그것들의 표준편차(표본평균의 표준오차)를 계산한다.
  • 히스토그램이나 box-plot을 그린다.
  • 신뢰구간을 찾는다.

    Ex. 크기 5인 표본 = {a,b,c,d,e}\{a, b, c, d, e\} 에서 부트 스트랩 재표본추출을 통해서 뽑은 부트스트랩 표본은 {a,a,b,b,e}\{a, a, b, b, e\}, {a,c,c,d,e}\{a, c, c, d, e\} 등이 될 수 있는 것이다.

R(부트스트랩 반복 횟수)은 임의로 설정할 수 있고, 반복 횟수가 많을수록 표준오차나 신뢰구간에 대한 추정이 더 정확해진다.
이런 절차를 통해 표본통계량 혹은 추정한 모델 파라미터의 부트스트랩 집합을 얻게 되고, 결과적으로 이 집합이 얼마나 변하는지 조사할 수 있게 된다.

부트스트랩의 반복적인 리샘플링(재표본추출)은 개념적으로는 단순하지만, 논문이 발표됬을 당시(1969, Basic Research Methods in Social Science, Julian Simon)에는 엄청난 연산을 필요로 하는 방법이기 때문에 현실적으로 불가능한 옵션이었다.

재표본추출(리샘플링)과 부트스트랩

종종 재표본추출이라는 용어는 부트스트랩이라는 것과 비슷한 의미로 사용된다. 하지만 재표본추출은 여러 표본이 결합되어 비복원추출을 수행할 수 있는 순열 과정을 포함하고, 부트스트랩은 항상 관측된 데이터로부터 복원추출한다는 점에서 차이가 있다.

profile
You matter, never give up

0개의 댓글