통계 분포 & 가설 검증

hyeeun·2025년 2월 1일

bootcamp

목록 보기
2/22
post-thumbnail

1. 통계의 개념

  • 통계학이란? 과학적 방법에 의해 자료를 수집하고 목적에 맞는 적절한 방법에 의해 정리, 분석하는 학문

(1) 기술통계 & 추론 통계

  • 기술 통계 (Descriptive Statistics)

    • 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리, 요약하는 방법을 다루는 분야
    • 평균, 중앙값, 최빈값, 분산, 표준편차, 백분위수(Percentile)
  • 추론 통계 (Inferential Statistics)

    • 관찰 불가능한 모집단의 여러 특성에 대해 관찰 가능한 표본 자료의 정보를 분석하여 과학적으로 추론하는 방법을 다루는 분야
    • 불확실성과 오류를 고려하여 통계적 추론을 수행
    • 합리적인 의사결정을 위한 근거를 제공하는 것이 목적
  • 기술통계는 데이터 샘플에 대하여 요약, 시각화하는 것을 의미하며 샘플의 특징을 파악하는 관점인 반면,
    추론통계는 샘플을 통해서 가설 검정 등을 통해 모집단을 추론하는것

(2) 모집단과 표본

  • 모집단(Population) : 관심의 대상이 되는 개체의 전체 집합, 수집 가능한 모든 관측 값
  • 표본(Sample) : 모집단에서 추출된 관측 값의 부분 집합

(3) 통계적 가설검정 (Statistical Hypothesis Testing)

통계적 가설검정은 표본 데이터를 이용하여 모집단에 대한 주장이 참인지 검증하는 과정입니다.

  • 귀무가설 (Null Hypothesis, H₀): 검정하고자 하는 기본 가설로, 보통 "차이가 없다"는 가정을 의미
  • 대립가설 (Alternative Hypothesis, H₁): 귀무가설을 기각할 경우 채택하는 가설로, "차이가 있다"는 의미
  • 유의수준 (Significance Level, α): 귀무가설을 기각하는 기준값으로, 일반적으로 0.05(5%) 사용
  • p-value: 귀무가설이 참이라는 가정하에서 현재 데이터를 얻을 확률. 일반적으로 p < 0.05이면 귀무가설을 기각

(4) 주요 가설검정 기법

  • Z-검정(Z-test): 모집단의 분산이 알려진 경우 평균 비교
  • t-검정(t-test): 모집단의 분산이 알려지지 않은 경우 평균 비교
  • 카이제곱 검정(χ²-test): 범주형 데이터 간의 독립성 검정
  • ANOVA(분산분석): 두 개 이상의 그룹 간 평균 차이를 비교


2. 확률과 확률 분포

(1) 확률 변수와 분포함수

  • 표본공간 : 모든 가능한 사건의 결과를 포함하는 집합 ( )
  • 확률변수(Randon Variable) : 표본공간에서 특정 값으로 변환되는 함수 ( S X,Y,Z )
    • 이산형 확률변수 : 확률변수가 취할 수 있는 모든 값은 하나씩 셀 수 있으며, 모두 유한개 또는 가산무한개인 경우
    • 연속형 확률변수 : 주어진 구간에서 모든 값을 취할 수 있어 그 값의 수가 무한개인 경우
  • 확률분포(Probability Distribution) 또는 분포함수(Distribution Function) : 확률변수 가 취할 수 있는 값 와 확률을 대응시키는 관계

(2) 이산형 확률변수와 확률질량함수(Probability Mass Function, PMF)

  • 확률변수가 X가 이산형인 경우 X가 취할 수 있는 값 x1, x2,...의 각각에 대하여 확률을 대응시켜주는 관계를 X의 확률질량함수라고 하며 p(x)로 표기
  • 모든 i에 대해 0p(xi)10 \leq p(x_{i}) \leq 1
  • 모든 i에 대한 확률의 합은 1 → i=1p(xi)=1\sum_{i=1}^{\infty} p(x_{i}) = 1

(3) 연속형 확률변수와 확률밀도함수(Probability Density Function, PDF)

  • 확률변수가 가 연속형인 경우 가 가질 수 있는 구간 위에서의 함수가 가다음을 만족할 때, 이를 의 확률밀도함수라고 함 → abf(x)dx\int_{a}^{b} f(x) \, dx
  • 모든 a,b에 대해 0abf(x)dx10 \leq \int_{a}^{b} f(x) \, dx \leq 1
  • 특정 값이 될 확률은 0, 전체 범위에 대한 확률은 1
    aaf(x)dx=0\int_{a}^{a} f(x) \, dx = 0, f(x)dx=1\int_{-\infty}^{\infty} f(x) \, dx = 1

(4) 누적분포함수(Cumulative Distribution Function, CDF)

  • 확률밀도함수의 그림이 아래와 같이 주어졌을 때 f(x)는 x값에 대한 확률 밀도 함수의 값 자체가 되고,
    F(x)는 XxX \leq x인 모든 X에 대한 f(x)의 적분 값이 됨

(5) 베이지안 확률과 신뢰 구간

  • 베이지안 확률 (Bayesian Probability)
    베이지안 확률은 사전 정보(Prior)와 새로운 데이터(Evidence)를 결합하여 사후 확률(Posterior)을 갱신하는 방식

  • 베이즈 정리(Bayes’ Theorem)

    P(AB)=P(BA)P(A)P(B)P(A | B) = \frac{P(B | A) P(A)}{P(B)}

    • ( P(A) ) : 사건 A의 사전 확률
    • ( P(B | A) ) : 사건 A가 주어졌을 때 사건 B가 일어날 확률
    • ( P(B) ) : 사건 B가 발생할 전체 확률
profile
hyeeun-techlog

0개의 댓글