[사전캠프 TIL]#6 통계의 종류와 모집단과 표본, 신뢰구간

테리·2025년 10월 14일
post-thumbnail

1. 학습 키워드

통계, 데이터 분석 방법, 모집단과 표본, 신뢰구간, 표본 오차

2. 학습 내용

기술통계

데이터를 요약하고 설명하는 통계 방법

  • 평균: 데이터의 대표값
  • 중앙값: 데이터를 크기 순서대로 정렬했을 때 중앙에 위치한 값
  • 분산: 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도. 데이터의 흩어짐 정도를 측정함. (데이터값 - 평균)^2/n
  • 표준편차: 분산의 제곱근. 원래 데이터 값과 동일한 단위로 변환되므로 직관적이다.

추론통계

데이터의 일부를 가지고(표본 데이터) 데이터 전체(모집단)를 추정하고 가설을 검정하는 통계방법

신뢰구간

  • 모집단의 평균이 특정 범위 내에 있을 것이라는 확률을 나타냄.
  • 일반적으로 95% 신뢰구간이 사용되며 이는 모집단 평균이 95%확률로 이 구간 내에 있음을 의미함.

가설검정

  • 모집단에 대한 가설을 검증하기 위해 사용됨.
  • 귀무가설: 검증하고자 하는 가설이 틀렸음을 나타내는 가설(변화가 없다, 효과가 없다 등)
  • 대립가설: 주장하는 바(변화가 있다, 효과가 있다 등). 우리는 귀무 가설을 기각하고 싶음.
  • p-value 이하면 귀무가설을 기각함.

데이터 분석 방법

  • 위치 추정: 데이터의 중심을 확인하는 방법(평균, 중앙값)
  • 변이 추정: 데이터가 얼마나 퍼져있는지(산포도) 확인(분산, 표준편차, 범위)
  • 데이터 분포 탐색(boxplot, 히스토그램)
  • 이진 데이터와 범주 데이터: 파이그램, 막대 그래프
  • 상관관계: 데이터들끼리 서로 관련이 있는지 확인하는 방법. 상관관계가 높다고 인과관계가 있는 것은 아니다.
  • 다변량 분석: 여러 변수간의 관계를 분석하는 방법(pairplot)

모집단과 표본

왜 표본을 사용하는 걸까?
모든 데이터를 수집하는 것이 현실적으로 불가능하며 데이터 처리와 분석에 있어서도 더 적은 컴퓨팅 자원을 활용한다.

표본은 반드시 모집단의 특징을 가질것이라고 가정하고 표본을 수집하는 것이다.

정규분포를 따르는 난수를 생성. (기본값 평균:0, 표준편차:1)

np.random.normal(평균, 표준편차, 데이터 개수)

1차원의 배열로부터 임의 표본 추출(size:개수, replace=True: 복원추출)

numpy.random.choice(배열or정수, size=None, replace=True, p=None)

표본 오차와 신뢰구간

표본 오차: 표본 통계량과 모집단의 실제 값 차이

신뢰구간

  • 모집단의 평균이 포함될것이라고 기대되는 구간
  • 신뢰구간=표본평균±z×표준오차
  • 95%의 신뢰수준의 z 값은 1.96

ex)

import scipy.stats as stats

# 표본 평균과 표본 표준편차 계산
sample_mean = np.mean(sample)
sample_std = np.std(sample)

# 95% 신뢰구간 계산
conf_interval = stats.t.interval(0.95, len(sample)-1, loc=sample_mean, scale=sample_std/np.sqrt(len(sample)))

print(f"표본 평균: {sample_mean}")
print(f"95% 신뢰구간: {conf_interval}")

scipy.stats.t.interval(alpha, df, loc=0, scale=1)

  • alpha: 신뢰 수준
  • df: 자유도(표본 개수-1)
  • loc: 위치(표본 평균)
  • scale: 표본 표준 오차(표본 표준편차/표본크기의 제곱근)

3. 배운점 및 생각

  • 신뢰 구간에 대해 모호했었는데 모집단의 평균이 n%의 확률로 포함될 것으로 기대되는 구간을 의미한다는 것을 다시 한 번 확인 했다.
  • 표본은 반드시 모집단의 특징을 가질 것

0개의 댓글