샘플링 / 리샘플링

황민규·2023년 6월 28일
0

통계/수학

목록 보기
2/8

1. 샘플링(Sampling)

샘플링은 모집단에서 임의의 표본들을 뽑아내는 것으로 표본 추출을 의미한다.

샘플링을 하는 이유는 모집단을 전부 조사하는 것이 불가능하기 때문이다.

따라서 샘플링을 이용하여 모집단에 대한 추론을 수행한다.

추출된 표본은 가능한 모집단을 대표할 수 있는 것이 좋으며, 완벽하게 모집단과 동일하지 않기 때문에 분석시 신뢰구간, 오버피팅 등으로 고려해줄 필요가 있다

2. 리샘플링(Resampling)

리샘플링은 말 그대로 샘플링을 다시 수행하는 것이다.

이 때 샘플링을 수행하는 대상은 원래의 샘플 즉, 표본이다.

리샘플링을 수행하는 이유는 샘플의 부분집합을 뽑아서 통계량의 변동성을 확인하기 위함이다.

주로 사용되는 방법은 k-fold 교차 검증, 부트스트랩핑(Bootstrapping)이 있다.

샘플링은 모집단에서 하나의 표본을 추출하는 것

리샘플링은 샘플링 과정을 여러번 반복하는 것.

샘플은 모집단을 닮은 하나의 집단이지만 noise가 존재 할 수 밖에 없다.

이를 리샘플링을 통해 샘플링의 한계를 극복하고 모집단의 분포에 대한 가정없이

표본만으로 초론이 가능하다는 장점이 생긴다.



K-fold 교차 검증

image

k-fold 는 샘플에서 k-1개의 동일한 크기의 부분집합을 만들어 Train 으로 사용 나머지를 Valid(test)로 사용한다. k개의 결과가 나오면 각 결과값의 평균을 통해 얻는다.

시계열 교차 검증

시계열의 경우는 시간 순서대로 진행되어 있고,

특정 STEP 이후를 예측하기도 한다. 연두색의 경우 1step

빨강색의 경우 3step CV라고 말할 수 있다.

profile
자반이랑 행복하게 살기

0개의 댓글