Sampling and Resampling

Hansss·2021년 11월 29일
0

Statistic/Math

목록 보기
5/11

샘플링과 리샘플링의 차이는 무엇일까?

샘플링(Sampling)

샘플링은 모집단에서 임의의 Sampling을 뽑아내는 것으로, 쉽게 말해 표본 추출을 의미한다.

샘플링을 하는 가장 큰 이유는 모집단 전체에 대한 조사는 사실상 불가능하기에 샘플링을 이용하여 모집단에 대한 추론을 하기 위해서이다.

주의해야할 점은 샘플링한 표본은 모집단을 닮았지만 모집단 그 자체는 아니므로 반드시 모집단의 원래 패턴에서 놓치는 부분이 존재한다.

리샘플링(Resampling)

리샘플링은 내가 가지고 있는 샘플에서 다시 샘플 부분집합을 뽑아 통계량의 변동성을 확인하는 것이다.
통계량의 변동성을 확인한다는게 무슨 말일까요?

즉, 같은 샘플을 여러번 사용해 성능을 측정하는 방식인데 가장 많이 사용하는 방법으로 K-Fold Cross Validation, Bootstrapping이 있다.

부트스트래핑
1. 표본 중 하나를 뽑아 기록하고 다시 제자리에 둔다.
2. 이를 n번 반복한다.
3. n번 재표본추출한 값의 평균을 구한다.
4. 1~3단계를 R번 반복한다. (R:부트스트랩 반복횟수)
5. 평균에 대한 결과 R개를 사용하여 신뢰구간을 구한다.
이 방법을 사용하면 표본보다 더 많은 통계량을 구할 수 있고 따라서 모수를 더 정확히 추정할 수 있다.

Reference

https://bkshin.tistory.com/entry/DATA-12
https://kejdev.github.io/posts/sampling-resampling/

profile
딥러닝 연습생

0개의 댓글