통계학 기초 02 데이터의 분포
2.1 모집단과 표본
1) 모집단은 전체, 표본은 일부
- 모집단 : 관심의 대상이 되는 전체 집단
- 표본 : 모집단에서 추출한 일부
2) 왜 표본을 사용하는 걸까?
(1) 현실적인 제약
ㄱ. 비용과 시간
- 전체 모집단을 조사하는 것은 비용과 시간이 많이 들기 때문에 대부분의 경우 불가능하거나 비효율적
- 표본 조사는 이러한 자원을 절약하면서 유의미한 결과를 도출할 수 있는 방법
ㄴ. 접근성
- 모든 데이터를 수집하는 것이 물리적으로 불가능한 경우가 많음
ㄷ. 대표성
- 표본의 대표성
- 잘 설계된 표본은 모집단의 특성을 반영, 이를 통해 표본에서 얻은 결과를 모집단 전체에 일반화할 수 있다.
- 무작위로 표본을 추출하면 편향을 최소화하고 모집단의 다양한 특성을 포함 가능
ㄹ. 데이터 관리
- 데이터 처리의 용이성
- 표본 데이터를 사용하는 것은 전체 데이터를 다루는 것보다 데이터 처리와 분석이 훨씬 용이, 큰 데이터셋은 분석에 많은 컴퓨팅 자원이 필요하지만 작은 표본은 부담을 줄여줌
- 데이터 품질 관리
- 작은 표본에서 데이터 품질을 더 쉽게 관리하고 오류나 이상값을 식별하여 수정할 수 있다.
ㅁ. 모델 검증 용이
- 모델 적합도 테스트
- 표본 데이터를 사용하여 통계적 모델을 검증. 모델이 표본 데이터에 잘 맞는다면 모집단에도 잘 맞을 가능성이 높음
ㅂ. 전수조사 : 모집단 전체를 조사하는 방법. 대규모일 경우 비용과 시간이 많이 듦
ㅅ. 표본조사 : 표본만을 조사하는 방법. 비용과 시간이 적게 들지만, 표본이 대표성을 가져야 함
(2) 실제로 어떻게 사용되어 질까?
- 실제로 모든 데이터를 다 수집할 수 없을 때 표본을 사용
- 도시 연구
- 의료 연구
- 시장 조사
- 정치 여론 조사
2.2 표본오차와 신뢰구간
1) 표본오차와 신뢰구간이란?
(1) 표본오차
-
표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이
- 표본 크기가 클수록 표본오차는 작아짐
- 표본이 모집단을 완벽하게 대표하지 못하기 때문에 발생, 표본의 크기와 표본 추출 방법에 따라 달라짐
-
표본의 크기 : 표본의 크기가 클수록 표본오차는 줄어듬
-
표본 추출 방법 : 무작위 추출 방법을 사용
(2) 신뢰구간
-
모집단의 특정 파라미터에 대해 추정된 값이 포함될 것으로 기대되는 범위
-
신뢰구간 계산 방법
- 신뢰구간 = 표본평균 ± z x 표준오차
- 95%의 신뢰수준일 경우, z-값은 1.96
- 일반적으로 95%의 신뢰 수준을 많이 사용
-
모집단과 표본 분포 (왼쪽 그림)
- 붉은색 점선은 모집단의 평균
- 파란색 점선은 표본의 평균
- 모집단의 분포는 넓고, 표본 평균들의 분포는 좁아집니다.
- 표본 크기가 커질수록 표본 평균이 모집단 평균에 더 가까워지는 경향을 보여줍니다.
-
신뢰구간 시각화 (오른쪽 그림)
- 오른쪽 그림은 표본의 분포와 95% 신뢰구간을 보여줍니다.
- 파란색 점선은 표본의 평균을 나타내고, 녹색 점선은 95% 신뢰구간의 상한과 하한을 나타냅니다.
- 이 신뢰구간은 모집단의 평균을 포함할 것으로 예상되는 범위입니다.
2) 실제로 어떻게 사용될까?
- 수학점수 표본으로부터 모집단의 평균 범위를 계산
- scipy.stats.t.interval(alpha, df, loc=0, scale=1)
- alpha
- 신뢰 수준(confidence level)을 의미합니다. 예를 들어, 95% 신뢰 구간을 원하면
alpha
를 0.95로 설정합니다.
- df
- 자유도(degrees of freedom)를 나타냅니다. 일반적으로 표본 크기에서 1을 뺀 값으로 설정합니다 (
df = n - 1
).
- loc
- 위치(parameter of location)로, 일반적으로 표본 평균을 설정합니다.
- scale
- 스케일(parameter of scale)로, 일반적으로 표본 표준 오차(standard error)를 설정합니다. 표본 표준 오차는 표본 표준편차를 표본 크기의 제곱근으로 나눈 값입니다 (
scale = sample_std / sqrt(n)
).
2.3 정규분포
1) 정규분포
- 종 모양의 대칭 분포로 평균 주위에 몰려 있는 분포
- 평균을 중심으로 좌우 대칭, 평균에서 멀어질수록 데이터의 빈도가 감소
- 표준편차는 분포의 퍼짐정도
- 특징 : 대부분의 데이터가 평균 주변에 몰려 있으며, 평균에서 멀어질수록 빈도가 줄어듦.
2) 실제로 어떻게 사용될까?
- 데이터 수가 많을 경우 대부분의 경우 사용 가능
2.4 긴 꼬리 분포 ( Long Tail )
- 대부분의 데이터가 분포의 한쪽 끝에 몰려있고, 반대쪽에 긴 꼬리가 이어지는 형태의 분포
- 정규분포와 달리 대칭적이지 않고 비대칭적
- 소수가 큰 영향을 미칠 때 활용 (20 : 80)
- 특정한 하나의 분포를 의미하지 않으며 여러 분포의 분포(예: 파레토 분포, 지프의 법칙, 멱함수)를 포함
- 특징 : 소득 분포, 웹사이트 방문자 수 등에서 관찰
2.5 스튜던트 t 분포
- 표본이 적을 때 정규분포 대신에 사용하는 분포
- 자유도가 커질수록 정규분포에 가까워짐
- 자유도 : 변수들이 얼마나 제한없이 자유롭냐?를 확인하기 위한 것
- 모집단의 표준편차를 알 수 없고, 표본의 크기가 작은 경우(일반적으로 30 미만)
2.6 카이제곱분포
- 독립성 검정, 적합성 검정에서 사용(유사도 검정에서 사용)
- 범주형 데이터의 독립성 검정이나 적합도 검정에서 사용되는 분포
- 특징
- 자유도에 따라 모양이 달라짐
- 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 '완벽하게 서로 다른 질적 자료'일 때 활용
예) 성별이나 나이에 따른 선거 후보 지지율
- 범주형 데이터 분석에 사용
- 독립성 검정이나 적합도 검정이 필요할 때
- 독립성 검정 : 두 범주형 변수 간의 관계가 있는지 확인할 때 사용
- 적합도 검정 : 관측한 값들이 특정 분포에 해당하는지 검정할 때 사용
2.7 이항분포
2.8 푸아송 분포
2.9 분포 정리하기
- 데이터 수가 많아지면 정규분포에 수렴(중심극한정리)
- 데이터 수가 많으면 정규분포
데이터 수가 충분하다 - 정규분포
데이터 수가 작다 - 스튜던트 t 분포
일부 데이터가 전체적으로 큰 영향을 미친다 - 긴꼬리 분포
범주형 데이터의 독립성 검정이나 적합도 검정 - 카이제곱 분포
결과가 두개만 나오는 상황 - 이항 분포
특정 시간, 공간에서 발생하는 사건 - 푸아송 분포