통계학 기초 02 데이터의 분포

Data_Student·2024년 11월 11일
0

통계학 기초

목록 보기
2/10

통계학 기초 02 데이터의 분포


2.1 모집단과 표본

1) 모집단은 전체, 표본은 일부

  • 모집단 : 관심의 대상이 되는 전체 집단
  • 표본 : 모집단에서 추출한 일부

2) 왜 표본을 사용하는 걸까?
(1) 현실적인 제약
ㄱ. 비용과 시간

  • 전체 모집단을 조사하는 것은 비용과 시간이 많이 들기 때문에 대부분의 경우 불가능하거나 비효율적
  • 표본 조사는 이러한 자원을 절약하면서 유의미한 결과를 도출할 수 있는 방법

ㄴ. 접근성

  • 모든 데이터를 수집하는 것이 물리적으로 불가능한 경우가 많음

ㄷ. 대표성

  • 표본의 대표성
    • 잘 설계된 표본은 모집단의 특성을 반영, 이를 통해 표본에서 얻은 결과를 모집단 전체에 일반화할 수 있다.
    • 무작위로 표본을 추출하면 편향을 최소화하고 모집단의 다양한 특성을 포함 가능

ㄹ. 데이터 관리

  • 데이터 처리의 용이성
    • 표본 데이터를 사용하는 것은 전체 데이터를 다루는 것보다 데이터 처리와 분석이 훨씬 용이, 큰 데이터셋은 분석에 많은 컴퓨팅 자원이 필요하지만 작은 표본은 부담을 줄여줌
  • 데이터 품질 관리
    • 작은 표본에서 데이터 품질을 더 쉽게 관리하고 오류나 이상값을 식별하여 수정할 수 있다.

ㅁ. 모델 검증 용이

  • 모델 적합도 테스트
    • 표본 데이터를 사용하여 통계적 모델을 검증. 모델이 표본 데이터에 잘 맞는다면 모집단에도 잘 맞을 가능성이 높음

ㅂ. 전수조사 : 모집단 전체를 조사하는 방법. 대규모일 경우 비용과 시간이 많이 듦
ㅅ. 표본조사 : 표본만을 조사하는 방법. 비용과 시간이 적게 들지만, 표본이 대표성을 가져야 함

(2) 실제로 어떻게 사용되어 질까?

  • 실제로 모든 데이터를 다 수집할 수 없을 때 표본을 사용
    • 도시 연구
    • 의료 연구
    • 시장 조사
    • 정치 여론 조사

2.2 표본오차와 신뢰구간

1) 표본오차와 신뢰구간이란?
(1) 표본오차

  • 표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이

    • 표본 크기가 클수록 표본오차는 작아짐
    • 표본이 모집단을 완벽하게 대표하지 못하기 때문에 발생, 표본의 크기와 표본 추출 방법에 따라 달라짐
  • 표본의 크기 : 표본의 크기가 클수록 표본오차는 줄어듬

  • 표본 추출 방법 : 무작위 추출 방법을 사용

    (2) 신뢰구간

  • 모집단의 특정 파라미터에 대해 추정된 값이 포함될 것으로 기대되는 범위

  • 신뢰구간 계산 방법
    - 신뢰구간 = 표본평균 ± z x 표준오차
    - 95%의 신뢰수준일 경우, z-값은 1.96
    - 일반적으로 95%의 신뢰 수준을 많이 사용

  • 모집단과 표본 분포 (왼쪽 그림)

    • 붉은색 점선은 모집단의 평균
    • 파란색 점선은 표본의 평균
    • 모집단의 분포는 넓고, 표본 평균들의 분포는 좁아집니다.
    • 표본 크기가 커질수록 표본 평균이 모집단 평균에 더 가까워지는 경향을 보여줍니다.
  • 신뢰구간 시각화 (오른쪽 그림)

    • 오른쪽 그림은 표본의 분포와 95% 신뢰구간을 보여줍니다.
    • 파란색 점선은 표본의 평균을 나타내고, 녹색 점선은 95% 신뢰구간의 상한과 하한을 나타냅니다.
    • 이 신뢰구간은 모집단의 평균을 포함할 것으로 예상되는 범위입니다.

2) 실제로 어떻게 사용될까?

  • 수학점수 표본으로부터 모집단의 평균 범위를 계산
  • scipy.stats.t.interval(alpha, df, loc=0, scale=1)
  • alpha
    • 신뢰 수준(confidence level)을 의미합니다. 예를 들어, 95% 신뢰 구간을 원하면 alpha를 0.95로 설정합니다.
  • df
    • 자유도(degrees of freedom)를 나타냅니다. 일반적으로 표본 크기에서 1을 뺀 값으로 설정합니다 (df = n - 1).
  • loc
    • 위치(parameter of location)로, 일반적으로 표본 평균을 설정합니다.
  • scale
    • 스케일(parameter of scale)로, 일반적으로 표본 표준 오차(standard error)를 설정합니다. 표본 표준 오차는 표본 표준편차를 표본 크기의 제곱근으로 나눈 값입니다 (scale = sample_std / sqrt(n)).

2.3 정규분포

1) 정규분포

  • 종 모양의 대칭 분포로 평균 주위에 몰려 있는 분포
    • 평균을 중심으로 좌우 대칭, 평균에서 멀어질수록 데이터의 빈도가 감소
    • 표준편차는 분포의 퍼짐정도
  • 특징 : 대부분의 데이터가 평균 주변에 몰려 있으며, 평균에서 멀어질수록 빈도가 줄어듦.

2) 실제로 어떻게 사용될까?

  • 데이터 수가 많을 경우 대부분의 경우 사용 가능
    • 중심극한정리

2.4 긴 꼬리 분포 ( Long Tail )

  • 대부분의 데이터가 분포의 한쪽 끝에 몰려있고, 반대쪽에 긴 꼬리가 이어지는 형태의 분포
    • 정규분포와 달리 대칭적이지 않고 비대칭적
    • 소수가 큰 영향을 미칠 때 활용 (20 : 80)
    • 특정한 하나의 분포를 의미하지 않으며 여러 분포의 분포(예: 파레토 분포, 지프의 법칙, 멱함수)를 포함
  • 특징 : 소득 분포, 웹사이트 방문자 수 등에서 관찰

2.5 스튜던트 t 분포

  • 표본이 적을 때 정규분포 대신에 사용하는 분포
  • 자유도가 커질수록 정규분포에 가까워짐
  • 자유도 : 변수들이 얼마나 제한없이 자유롭냐?를 확인하기 위한 것
  • 모집단의 표준편차를 알 수 없고, 표본의 크기가 작은 경우(일반적으로 30 미만)

2.6 카이제곱분포

  • 독립성 검정, 적합성 검정에서 사용(유사도 검정에서 사용)
  • 범주형 데이터의 독립성 검정이나 적합도 검정에서 사용되는 분포
  • 특징
    • 자유도에 따라 모양이 달라짐
    • 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 '완벽하게 서로 다른 질적 자료'일 때 활용
      예) 성별이나 나이에 따른 선거 후보 지지율
    • 범주형 데이터 분석에 사용
  • 독립성 검정이나 적합도 검정이 필요할 때
  • 독립성 검정 : 두 범주형 변수 간의 관계가 있는지 확인할 때 사용
  • 적합도 검정 : 관측한 값들이 특정 분포에 해당하는지 검정할 때 사용

2.7 이항분포

  • 결과가 2개가 나오는 상황일 때 사용하는 분포

    • 연속된 값을 가지지 않고, 특정한 정수 값만을 가질 수 있기 때문
    • 이산형 분포라고도 지칭
    • 성공/실패와 같은 두 가지 결과를 가지는 실험을 여러 번 반복했을 때 성공 횟수의 분포
    • 독립적인 시행이 n번 반복되고, 각 시행에서 성공과 실패 중 하나의 결과만 가능한 경우를 모델링하는 분포
    • 성공 확률을 p라 할 때, 성공의 횟수를 확률적으로 표현
  • 특징 : 실험 횟수 (n)와 성공 확률(p)로 정의


2.8 푸아송 분포

  • 희귀한 사건이 발생할 때 사용하는 분포

    • 이항 분포처럼 연속된 값을 가지지 않기 때문에 이 분포도 역시 이산형 분포에 해당
    • 평균 발생률 (람다)가 충분히 크다면 정규분포에 근사
    • 평균 발생률이란 주어진 시간이나 공간에서 사건이 몇번 발생했는지
  • 포아송 분포

    • 단위 시간 또는 단위 면적 당 발생하는 사건의 수를 모델링할 때 사용하는 분포
    • 단위 시간 또는 단위 면적당 희귀하게 발생하는 사건의 수를 모델링하는데 적합
  • 특정 공간이나 특정 시간에 사건이 발생하는 경우

    • 콜센터
    • 교통사고
    • 문자 메시지
    • 웹사이트 트래픽

2.9 분포 정리하기

  • 데이터 수가 많아지면 정규분포에 수렴(중심극한정리)
  • 데이터 수가 많으면 정규분포
    데이터 수가 충분하다 - 정규분포
    데이터 수가 작다 - 스튜던트 t 분포
    일부 데이터가 전체적으로 큰 영향을 미친다 - 긴꼬리 분포
    범주형 데이터의 독립성 검정이나 적합도 검정 - 카이제곱 분포
    결과가 두개만 나오는 상황 - 이항 분포
    특정 시간, 공간에서 발생하는 사건 - 푸아송 분포

0개의 댓글