샘플링은 모집단에서 임의의 표본들을 뽑아내는 것으로 표본 추출을 의미한다.
샘플링을 하는 이유는 모집단을 전부 조사하는 것이 불가능하기 때문이다.
따라서 샘플링을 이용하여 모집단에 대한 추론을 수행한다.
추출된 표본은 가능한 모집단을 대표할 수 있는 것이 좋으며, 완벽하게 모집단과 동일하지 않기 때문에 분석시 신뢰구간, 오버피팅 등으로 고려해줄 필요가 있다
리샘플링은 말 그대로 샘플링을 다시 수행하는 것이다.
이 때 샘플링을 수행하는 대상은 원래의 샘플 즉, 표본이다.
리샘플링을 수행하는 이유는 샘플의 부분집합을 뽑아서 통계량의 변동성을 확인하기 위함이다.
주로 사용되는 방법은 k-fold 교차 검증, 부트스트랩핑(Bootstrapping)이 있다.
샘플링은 모집단에서 하나의 표본을 추출하는 것
리샘플링은 샘플링 과정을 여러번 반복하는 것.
샘플은 모집단을 닮은 하나의 집단이지만 noise가 존재 할 수 밖에 없다.
이를 리샘플링을 통해 샘플링의 한계를 극복하고 모집단의 분포에 대한 가정없이
표본만으로 초론이 가능하다는 장점이 생긴다.
k-fold 는 샘플에서 k-1개의 동일한 크기의 부분집합을 만들어 Train 으로 사용 나머지를 Valid(test)로 사용한다. k개의 결과가 나오면 각 결과값의 평균을 통해 얻는다.
시계열의 경우는 시간 순서대로 진행되어 있고,
특정 STEP 이후를 예측하기도 한다. 연두색의 경우 1step
빨강색의 경우 3step CV라고 말할 수 있다.