
통계, 데이터 분석 방법, 모집단과 표본, 신뢰구간, 표본 오차
데이터를 요약하고 설명하는 통계 방법
데이터의 일부를 가지고(표본 데이터) 데이터 전체(모집단)를 추정하고 가설을 검정하는 통계방법
신뢰구간
가설검정
왜 표본을 사용하는 걸까?
모든 데이터를 수집하는 것이 현실적으로 불가능하며 데이터 처리와 분석에 있어서도 더 적은 컴퓨팅 자원을 활용한다.
표본은 반드시 모집단의 특징을 가질것이라고 가정하고 표본을 수집하는 것이다.
정규분포를 따르는 난수를 생성. (기본값 평균:0, 표준편차:1)
np.random.normal(평균, 표준편차, 데이터 개수)
1차원의 배열로부터 임의 표본 추출(size:개수, replace=True: 복원추출)
numpy.random.choice(배열or정수, size=None, replace=True, p=None)
표본 오차: 표본 통계량과 모집단의 실제 값 차이
신뢰구간
ex)
import scipy.stats as stats # 표본 평균과 표본 표준편차 계산 sample_mean = np.mean(sample) sample_std = np.std(sample) # 95% 신뢰구간 계산 conf_interval = stats.t.interval(0.95, len(sample)-1, loc=sample_mean, scale=sample_std/np.sqrt(len(sample))) print(f"표본 평균: {sample_mean}") print(f"95% 신뢰구간: {conf_interval}")scipy.stats.t.interval(alpha, df, loc=0, scale=1)
- alpha: 신뢰 수준
- df: 자유도(표본 개수-1)
- loc: 위치(표본 평균)
- scale: 표본 표준 오차(표본 표준편차/표본크기의 제곱근)