모집단

Sooin Yoon·2025년 3월 12일

모집단(population)

: 통계에서 연구 대상이 되는 전체 집단
모집단의 모든 객체를 조사하는 건 현실적으로 어렵기 때문에 그래서 표본(sample)을 뽑아서 연구하는 것

표본추출(sampling)

: 모집단으로부터 표본을 추출하는 것, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함

<모집단에서 표본 추출하는 방법>

복원추출(Sampling with replacement): 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있음
비복원추출(Sampling without replacement) : 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
Random sampling : 모집단에서 데이터를 추출할 때 주위할 점은 편향되지 않아야하고 각 개체가 모두 동일한 확률로 추출하는 방법

Imbalnced Data(불균형 데이터)

데이터가 불균형 데이터일 경우 문제가 발생
우리가 예측 모형을 만드는 목적은 관심이 있는 대상이 발생할 확률을 예측하는 경우가 대부분임, 그런데 예측 대상이 전체 대비 아주 낮다면? 모형의 성능이 괜찮을까?(ex) 신용 평가 모형 개발, 제조 불량 예측 등
해결 방법
1) sampling 기법을 통해서 해결
2) 모델을 통한 성능 개선

Sampling 기법 : 관심의 대상이 아주 비율이 낮은 경우

over sampling
: target data 적은 class의 수를 많은 class의 비율만큼 증가 시킴(일정 비율로 복원추출하는 개념) -> 과대적합의 문제 발생 가능
under sampling
: target data의 많은 class의 수를 적은 class의 비율만큼 감소 시킴, 임의로 뽑은 데이터가 biased(편향)될 수 있고, 모형의 성능이 떨어질수 있음

표본분포(sampling distribution)

: 통계량들이 이루는 분포를 표본 분포라고 함

중심극한정리(central limit theorm), CLT

t-distribution(t분포)

모집단의 분산을 모를 때, 표본에서 계산한 표본 평균을 정규 분포 대신 따르는 분포
표본 크기 𝑛이 작을 때(특히 𝑛<30, 정규 분포 대신 사용됨
자유도(𝑛−1) 에 따라 모양이 달라지고, 표본 크기가 커질수록 정규 분포에 가까워짐
작은 표본에서 평균 비교할 때(t-검정)
두 그룹의 평균 차이가 유의미한지 검정할 때

F-distribution(F분포)

두 개의 카이제곱 분포를 나눈 값이 따르는 확률 분포
두 개의 분산을 비교하는데 사용
비대칭적(오른쪽으로 긴 꼬리)를 가짐, 항상 값이 0
자유도 d1, d2에 따라 모양이 변함
자유도가 증가하면 점점 정규 분포에 가까워짐
서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 초론, 분산분석 등에 활용

이전 포스트

캐글필사 - Loan Approval Prediction

다음 포스트

추정

0개의 댓글