부트스트랩

정다영·2022년 8월 9일
0

2.4 부트스트랩


1. 용어정리

  • 부트스트랩 표본(bootstrap sample): 관측 데이터 집합으로부터 얻은 복원추출 표본
  • 재표본추출(resampling)
    • 관측데이터로부터 반복해서 표본추출하는 과정
    • 부트스트랩과 순열(셔플링) 과정을 포함

2. 부트스트랩의 재표본추출 알고리즘

  • 샘플 값을 하나 뽑아서 기록하고 다시 제자리에 놓는다.
  • n번 반복한다.
  • 재표본추출된 값의 평균을 기록한다.
  • 1~3단계를 R번 반복한다.
  • R개의 결과를 사용하여
    a. 표준편차(표본평균의 표준오차)를 계산한다.
    b. 히스토그램 또는 상자그림을 그린다.
    c. 신뢰구간을 찾는다.

3. 실습 예제

  • 코드
import pandas as pd
from sklearn.utils import resample

url = "https://raw.githubusercontent.com/gedeck/practical-statistics-for-data-scientists/master/data/loans_income.csv"
loans_income = pd.read_csv(url)    

results = []

for nrepeat in range(1000):
  sample = resample(loans_income)
  results.append(sample.median())
results = pd.Series(results)

print('Bootstrap Statistics')
print(f'original: {loans_income.median()}')
print(f'bias: {results.mean() - loans_income.median()}')
print(f'std. error: {results.std()}')
  • 결과
    1) -72 정도의 편향
    2) 약 211 달러 표준오차

4. 결론

  • 부트스트랩은 표본 크기가 작은 것을 보완하기 위한 것이 아니다.
  • 모집단에서 추가적으로 표본을 뽑을 때, 그 표본이 원래표본과 얼마나 비슷할지 알려줄 뿐

2.4.1 재표본추출 대 부트스트래핑

1. 재표본추출

  • 여러 표본이 결합되어 비복원추출을 수행할 수 있는 순열 과정 포함

2. 부트스트랩

  • 항상 관측된 데이터로부터 복원추출한다는 것
  • 표본통계량의 변동성을 평가

피터 브루스, 앤드루 브루스의 <데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 50가지 핵심 개념> 을 읽고 정리한 내용입니다.

profile
My_Spielraum

0개의 댓글