'우리가 가지고 있는 표본이 과연 모집단을 얼마나 대표한다고 볼 수 있을까?' 라는 질문에서 리샘플링은 시작한다.
표본은 모집단을 닮은 모집단의 거울과 같은 존재이지만, 모집단 그 자체일 수는 없다.
따라서, 표본에는 반드시 모집단의 원래 패턴에서 놓친 부분, 즉 noise가 존재할 수 밖에 없다.
-> 이를 구조적으로 보완하기 위해 머신러닝 필드에서 주어진 데이터셋을 train/test set으로 나누어 모델을 적합하지만, train set에만 우리의 모델이 과적합되는 문제가 발생한다.
또한, 데이터의 평균과 같은 요약통계치도 내가 가진 데이터에 오버핏되어 있을 수 있다.
따라서, 우리는 리샘플링을 진행한다.
- 리샘플링 : 내가 가지고 있는 샘플에서 다시 샘플 부분집합을 뽑아서 통계량의 변동성(variability of statistics)을 확인하는 것.
이 과정에서 조금 더 엄밀하게 모집단에 근접할 수 있다.
Estimating the precision of sample statistics by using subsets of available data(jackknifing) or drawing randomly with replacement from a set of data points(bootstrapping)
: 샘플의 통계치(ex. 샘플의 평균)의 정확도를 추정하는 것
Validating models by using random subsets(bootstrapping, cross validation)
: 임의의 부분집합을 이용해 모델을 검증하는 것
reference : https://cnp-0717.tistory.com/7
https://specialscene.tistory.com/26
code reference : https://jellyho.com/blog/88/
https://matamong.tistory.com/entry/%EB%B6%88%EA%B7%A0%ED%98%95-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%8B%A4%EB%A3%A8%EA%B8%B0-Resampling-over-sampling-under-sampling