모집단이 정규분포가 아니더라도, 표본의 크기가 충분하고 데이터가 정규성을 크게 이탈하지 않는 경우, 여러 표본에서 추출한 평균은 종모양의 정규곡선을 따른다.
재표본 추출은 부트스트랩과 비슷한의미로 사용된다. 보통 재표본추출은 여러 표본이 결합되어 비복원추출을 수행할 수 있는 "순열과정"을 포함한다. 부트스트랩은 항상 관측된 데이터로부터 복원추출은 하는것이다.
통계학에서 재표본추출의 목표는 랜덤한 변동성을 알아보기 위함이다. 재표본추출은 표본을 반복적으로 추출하는것을 의미하며, 이를 적용하면 머신러닝 모델의 정확성을 평가하고, 항샹시킬 수 있다.
통계량이나 모델 파라미터(모수)의 표본분포를 추정하는 쉽고 효과적인 방법은, 현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산하는 것이다. 이러한 절차를 부트스트랩이라고 부르며, 데이터나 표본통계량이 정규분포를 따라야 한다는 가정은 꼭 필요하지 않다.
부트스트래핑을 하면 한 개 밖에 없었던 우리의 sample data set을 n개의 sample data set을 가지고 있는것과 같은 효과를 누릴 수 있게 한다. 즉, 데이터 수가 너무적어서 통계적으로 신뢰구간과 같은 여러 기법들을 사용하지 못할때 이를 사용하기 위해 부트스트랩을 통하여 표본을 일시 늘리는것이다.
부트스트래핑은 정규분포를 따르지않고, 데이터셋의 분포가 고르지 않은경우에 사용할 수 있다는 장점이 있다.
방법 : 모집단에서 하나의 샘플데이터를 뽑아온다 -> 샘플데이터에서 복원추출하여 반복해서 샘플을만든다.
-> 재표본추출된 표본의 평균을 기록한다. -> 이를 반복한다.(중복허용=복원추출)
반복횟수가 많을수록 표준오차나 신뢰구간에 대한 추정이 더 정확해진다.
부트스트래핑을 사용하는 이유는 많은 통계적 실험에서는 정규성을 가정하고 사용을 하게된다. 부트스트래핑을 이용하게되면 적은 데이터라도 정규분포를 형성시키기 충분한 데이터를 만들 수 있기 때문에 모집단의 평균을 추정할 수 있다.
즉, 자료가 충분하지 않을때는, 부트스트래핑을 통해 데이터를 일시적으로 늘여서 표준오차를 통해 표본의 변동성을 측정한다.
1개의 샘플평균은 별로 의미가 없지만 1000개 이상 부트스트래핑한 평균은 모집단의 평균을 추정가능.
여러 부트스트랩 표본들로부터 얻은 예측값을 모아서 결론을 만드는것(배깅)이 단일 모델을 사용하는것 보다 좋다.
주의 : 부트스트랩은 표본크기가 작은 것을 보완하기 위한것이 아니다. 새 데이터를 만드는 것도 아니며 기존 데이터 집합의 빈 곳을 채우는것도 아니다. 모집단에서 추가적으로 표본을 뽑는다고 할 때, 그 표본이 얼마나 원래 표본과 비슷할지를 알려줄 뿐이다.
요약 : 부트스트랩은 추정의 신뢰성을 평가하는 데 사용된다
순열검정에 대한 자세한 것은 기초통계(20)에서 다룰것이다. 일단 읽고 이런거구나 하고 넘어가면 된다.
-기존 그룹의 차이와 순열 과정에서 얻은 집합의 차이를 비교해보자.
만약, 기존 차이가 순열로 나온 차이의 집합 안에 들어가 있다면 어떠한 것도 증명할 수가 없다.( 우연히 일어날 수 있음 )하지만, 기존 차이가 순열 분포의 바깥에 있다면, 우연 때문이 아니라고 결론 내릴 수 있다.
즉, 통계적으로 유의미하다.