[Statistics] Resampling

qw4735·2022년 12월 26일
0

Statistics

목록 보기
1/5

sampling

  • 샘플링 : 표본추출을 의미, 모집단 전체에 대한 추정치(estimate)을 얻기 위해 모집단에서 임의의 sample을 뽑아내는 것.
  • 모집단 전체에 대한 조사는 사실상 불가능하기 때문에, 샘플을 이용하여 모집단에 대한 추론(inference)을 하게 되는 것.
    - ex) 단순무작위추출, 층화추출, 계통추출 등

'우리가 가지고 있는 표본이 과연 모집단을 얼마나 대표한다고 볼 수 있을까?' 라는 질문에서 리샘플링은 시작한다.

표본은 모집단을 닮은 모집단의 거울과 같은 존재이지만, 모집단 그 자체일 수는 없다.
따라서, 표본에는 반드시 모집단의 원래 패턴에서 놓친 부분, 즉 noise가 존재할 수 밖에 없다.

-> 이를 구조적으로 보완하기 위해 머신러닝 필드에서 주어진 데이터셋을 train/test set으로 나누어 모델을 적합하지만, train set에만 우리의 모델이 과적합되는 문제가 발생한다.
또한, 데이터의 평균과 같은 요약통계치도 내가 가진 데이터에 오버핏되어 있을 수 있다.
따라서, 우리는 리샘플링을 진행한다.

resampling

  • 리샘플링 : 내가 가지고 있는 샘플에서 다시 샘플 부분집합을 뽑아서 통계량의 변동성(variability of statistics)을 확인하는 것.
    이 과정에서 조금 더 엄밀하게 모집단에 근접할 수 있다.
  • 위키피디아를 찾아보면 리샘플링을 다음과 같이 정의함을 알 수 있다.
  1. Estimating the precision of sample statistics by using subsets of available data(jackknifing) or drawing randomly with replacement from a set of data points(bootstrapping)
    : 샘플의 통계치(ex. 샘플의 평균)의 정확도를 추정하는 것

  2. Validating models by using random subsets(bootstrapping, cross validation)
    : 임의의 부분집합을 이용해 모델을 검증하는 것

reference : https://cnp-0717.tistory.com/7
https://specialscene.tistory.com/26
code reference : https://jellyho.com/blog/88/
https://matamong.tistory.com/entry/%EB%B6%88%EA%B7%A0%ED%98%95-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%8B%A4%EB%A3%A8%EA%B8%B0-Resampling-over-sampling-under-sampling

0개의 댓글

관련 채용 정보