모집단

Sooin Yoon·2025년 3월 12일

모집단(population)

: 통계에서 연구 대상이 되는 전체 집단
모집단의 모든 객체를 조사하는 건 현실적으로 어렵기 때문에 그래서 표본(sample)을 뽑아서 연구하는 것

표본추출(sampling)

: 모집단으로부터 표본을 추출하는 것, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함

<모집단에서 표본 추출하는 방법>

  • 복원추출(Sampling with replacement): 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있음
  • 비복원추출(Sampling without replacement) : 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
  • Random sampling : 모집단에서 데이터를 추출할 때 주위할 점은 편향되지 않아야하고 각 개체가 모두 동일한 확률로 추출하는 방법

Imbalnced Data(불균형 데이터)

  • 데이터가 불균형 데이터일 경우 문제가 발생
  • 우리가 예측 모형을 만드는 목적은 관심이 있는 대상이 발생할 확률을 예측하는 경우가 대부분임, 그런데 예측 대상이 전체 대비 아주 낮다면? 모형의 성능이 괜찮을까?(ex) 신용 평가 모형 개발, 제조 불량 예측 등
  • 해결 방법
    1) sampling 기법을 통해서 해결
    2) 모델을 통한 성능 개선

Sampling 기법 : 관심의 대상이 아주 비율이 낮은 경우

  • over sampling
    : target data 적은 class의 수를 많은 class의 비율만큼 증가 시킴(일정 비율로 복원추출하는 개념) -> 과대적합의 문제 발생 가능
  • under sampling
    : target data의 많은 class의 수를 적은 class의 비율만큼 감소 시킴, 임의로 뽑은 데이터가 biased(편향)될 수 있고, 모형의 성능이 떨어질수 있음

표본분포(sampling distribution)

: 통계량들이 이루는 분포를 표본 분포라고 함

중심극한정리(central limit theorm), CLT

t-distribution(t분포)

  • 모집단의 분산을 모를 때, 표본에서 계산한 표본 평균을 정규 분포 대신 따르는 분포
    표본 크기 𝑛이 작을 때(특히 𝑛<30, 정규 분포 대신 사용됨
  • 자유도(𝑛−1) 에 따라 모양이 달라지고, 표본 크기가 커질수록 정규 분포에 가까워짐
  • 작은 표본에서 평균 비교할 때(t-검정)
  • 두 그룹의 평균 차이가 유의미한지 검정할 때

F-distribution(F분포)

  • 두 개의 카이제곱 분포를 나눈 값이 따르는 확률 분포
  • 두 개의 분산을 비교하는데 사용
  • 비대칭적(오른쪽으로 긴 꼬리)를 가짐, 항상 값이 0
  • 자유도 d1, d2에 따라 모양이 변함
  • 자유도가 증가하면 점점 정규 분포에 가까워짐
  • 서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 초론, 분산분석 등에 활용

0개의 댓글