기초통계 (10) 중심극한정리 와 재표본추출(순열검정, 부트스트랩)

생각하는 마리오네트·2021년 8월 19일
1

통계

목록 보기
16/41
post-thumbnail

📈 중심극한정리(Central Limit Theorem, CLT)

모집단이 정규분포가 아니더라도, 표본의 크기가 충분하고 데이터가 정규성을 크게 이탈하지 않는 경우, 여러 표본에서 추출한 평균은 종모양의 정규곡선을 따른다.

  • 표본이 아무리 많다고 해도 표본의 평균값이 모집단의 평균값과 같아지지는 않는다.(표본 추출을 할때마다 표본의 평균값이 달라지기 때문)
  • 모집단의 평균값과같아질수는 없지만 표본의 크기가 커질수록(30개 이상) 표본평균들이 이루는 분포가 정규분포에 가까워진다.
  • "모집단의 분포에 상관없이" 큰 표본들의 표본평균의 분포가 정규분포로 수렴 한다는 점을 이용하여, Z값을 구해 확률값을 구할 수 있게 된다.
  • 중심극한정리는 가설검정과 신뢰구간의 밑바탕이 되므로 매우 중요하게 다루어진다. 하지만, 형식적인 가설검정이나 신뢰구간이 데이터 과학에서는 그정도로 중요하지않다.
  • 대부분의 경우 부트스트랩을 사용할 수 있기 때문이다.

📈 재표본추출,Resampling(부트스트래핑, 순열검정)

  • 재표본 추출은 부트스트랩과 비슷한의미로 사용된다. 보통 재표본추출은 여러 표본이 결합되어 비복원추출을 수행할 수 있는 "순열과정"을 포함한다. 부트스트랩은 항상 관측된 데이터로부터 복원추출은 하는것이다.

  • 통계학에서 재표본추출의 목표는 랜덤한 변동성을 알아보기 위함이다. 재표본추출은 표본을 반복적으로 추출하는것을 의미하며, 이를 적용하면 머신러닝 모델의 정확성을 평가하고, 항샹시킬 수 있다.


📈 부트스트랩(bootstrap)

  • 통계량이나 모델 파라미터(모수)의 표본분포를 추정하는 쉽고 효과적인 방법은, 현재 있는 표본에서 추가적으로 표본을 복원추출하고 각 표본에 대한 통계량과 모델을 다시 계산하는 것이다. 이러한 절차를 부트스트랩이라고 부르며, 데이터나 표본통계량이 정규분포를 따라야 한다는 가정은 꼭 필요하지 않다.

  • 부트스트래핑을 하면 한 개 밖에 없었던 우리의 sample data set을 n개의 sample data set을 가지고 있는것과 같은 효과를 누릴 수 있게 한다. 즉, 데이터 수가 너무적어서 통계적으로 신뢰구간과 같은 여러 기법들을 사용하지 못할때 이를 사용하기 위해 부트스트랩을 통하여 표본을 일시 늘리는것이다.

  • 부트스트래핑은 정규분포를 따르지않고, 데이터셋의 분포가 고르지 않은경우에 사용할 수 있다는 장점이 있다.

  • 방법 : 모집단에서 하나의 샘플데이터를 뽑아온다 -> 샘플데이터에서 복원추출하여 반복해서 샘플을만든다.
    -> 재표본추출된 표본의 평균을 기록한다. -> 이를 반복한다.(중복허용=복원추출)

  • 반복횟수가 많을수록 표준오차나 신뢰구간에 대한 추정이 더 정확해진다.

  • 부트스트래핑을 사용하는 이유는 많은 통계적 실험에서는 정규성을 가정하고 사용을 하게된다. 부트스트래핑을 이용하게되면 적은 데이터라도 정규분포를 형성시키기 충분한 데이터를 만들 수 있기 때문에 모집단의 평균을 추정할 수 있다.

  • 즉, 자료가 충분하지 않을때는, 부트스트래핑을 통해 데이터를 일시적으로 늘여서 표준오차를 통해 표본의 변동성을 측정한다.

  • 1개의 샘플평균은 별로 의미가 없지만 1000개 이상 부트스트래핑한 평균은 모집단의 평균을 추정가능.

  • 여러 부트스트랩 표본들로부터 얻은 예측값을 모아서 결론을 만드는것(배깅)이 단일 모델을 사용하는것 보다 좋다.

  • 주의 : 부트스트랩은 표본크기가 작은 것을 보완하기 위한것이 아니다. 새 데이터를 만드는 것도 아니며 기존 데이터 집합의 빈 곳을 채우는것도 아니다. 모집단에서 추가적으로 표본을 뽑는다고 할 때, 그 표본이 얼마나 원래 표본과 비슷할지를 알려줄 뿐이다.

  • 요약 : 부트스트랩은 추정의 신뢰성을 평가하는 데 사용된다


📈 순열검정(permutation test)

순열검정에 대한 자세한 것은 기초통계(20)에서 다룰것이다. 일단 읽고 이런거구나 하고 넘어가면 된다.

  • 무작위 순열검정 : 두 개 이상의 표본을 함께 결합하여 관측값들을 무작위로 재표본으로 추출하는과정
  • 과정
  1. 여러 그룹의 결과를 단일 데이터 집합으로 결합한다.
  2. 결합된 데이터를 잘 섞은 후, 그룹A와 동일한 크기의 표본을 무작위로 (비복원)추출한다.
  3. 나머지 데이터에서 그룹 B와 동일한 크기의 샘플을 무작위로 (비복원)추출한다.
  4. 지금 추출한 재표본에 대해 모두 다시 계산하고 기록한다.
  5. 1 ~ 4 의 과정을 R번 반복하여 검정통계량의 순열 분포를 얻는다.

-기존 그룹의 차이와 순열 과정에서 얻은 집합의 차이를 비교해보자.
만약, 기존 차이가 순열로 나온 차이의 집합 안에 들어가 있다면 어떠한 것도 증명할 수가 없다.( 우연히 일어날 수 있음 )하지만, 기존 차이가 순열 분포의 바깥에 있다면, 우연 때문이 아니라고 결론 내릴 수 있다.
즉, 통계적으로 유의미하다.

📈 순열검정의 변종

  1. 전체순열검정 : 데이터를 무작위로 섞고 나누는 과정에서 나눌 수 있는 모든 가능한 조합을 찾는다.
    따라서 샘플 크기가 비교적 작을 때만 실용적이다. 셔플링을 많이 반복할수록, 임의순열검정 결과는 전체순열검정 결과와 유사하게 근접한다. '유의미하다'라는 결론이 아닌 더 정확한 결론을 보장하는 통계적 속성이 있어서 '정확검정'이라고도 한다.
  1. 부트스트랩 순열검정 : 무작위 순열검정의 2,3단계에서 비복원으로 하던 것을 복원 추출로 수행한다.
    이는 리샘플링 과정에서 모집단 개체를 선택할 때, 개체가 다시 그룹에 할당될 때에도 임의성을 보장한다.
    하지만, 이를 구별하는 일이 복잡하고, 데이터 과학에서 별로 실용적이지 않다.
profile
문제를해결하는도구로서의"데이터"

0개의 댓글