모집단과 표본
- 모집단: 관심의 대상이 되는 집단
- 표본: 모집단에서 추출한 일부
표본을 사용하는 이유
현실적인 제약
대표성
- 표본의 대표성: 잘 설계된 표본은 모집단의 특성을 반영할 수 있을 뿐 아니라 무작위로 표본을 추출하면 편향을 최소화하고 모집단의 다양한 특성을 포함할 수 있다.
데이터 관리
모델 검증 용이
표본 추출 실습
import numpy as np
import matplotlib.pyplot as plt
# 모집단 생성 (예: 국가의 모든 성인의 키 데이터)
population = np.random.normal(170, 10, 1000)
# 표본 추출
sample = np.random.choice(population, 100)
plt.hist(population, bins=50, alpha=0.5, label='population', color='blue') # 모집단
plt.hist(sample, bins=50, alpha=0.5, label='sample', color='red') # 샘플
plt.legend()
plt.title('population and sample distribution')
plt.show()

- np.random.normal: 정규분포(가우시안 분포)를 따르는 난수 생성