TIL_251202 본캠프 32일차

wldus·2025년 12월 3일

📊 통계 기초 정리

1️⃣ 기술통계 vs 추론통계 한 번에 이해하기


🧩 1. 기술통계(Descriptive Statistics)

"이미 가지고 있는 데이터 자체를 요약·정리하는 통계"

데이터를 대표값이나 흩어짐 정도로 정리해서 전체적인 분포와 경향을 파악할 때 사용한다.

✅ 대표적인 기술통계 지표

  • 평균 (mean)
    모든 값을 더한 뒤 개수로 나눈 값
    → 데이터의 “중심”을 가장 직관적으로 보여주는 값

  • 중앙값 (median)
    값을 크기순으로 나열했을 때 정중앙에 위치한 값
    → 극단값(이상치)에 덜 민감해서, 왜도가 큰 데이터에서 유용함

  • 분산 (variance)
    데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도
    → 값들의 흩어짐(산포도)을 수치로 표현

  • 표준편차 (standard deviation)
    분산의 제곱근
    → “평균에서 얼마나 떨어져 있는지”를 원래 단위로 보여주는 통계량
    → 값이 클수록 데이터가 평균 주변에서 많이 퍼져 있다는 의미


🧠 2. 추론통계(Inferential Statistics)

"일부 데이터(표본)를 보고, 전체 집단(모집단)을 추정·검정하는 통계"

모든 사람/모든 경우를 다 조사할 수 없기 때문에,
일부만 뽑은 표본(sample) 으로 모집단(population) 의 특징을 추론한다.

✅ 대표적인 추론통계 방법

  • 신뢰구간 (Confidence Interval)

    • “모집단의 평균이 이 범위 안에 있을 것이다” 라는 식으로
      특정 범위 + 그에 대한 신뢰수준(예: 95%) 을 함께 제시
    • 예시:

      서울 직장인 하루 평균 카페 지출은
      5,000원 ~ 6,000원 (95% 신뢰구간)

  • 가설검정 (Hypothesis Testing)

    • 모집단에 대한 어떤 주장(가설)이 맞는지/틀린지를 통계적으로 검증하는 방법
    • 두 가지 가설을 세운다:
      • 귀무가설(H₀) : 기존에 믿고 있는 주장, “변화 없음” or “차이 없음”
      • 대립가설(H₁) : 우리가 새롭게 주장하고 싶은 내용, “차이 있음” or “효과 있음”
    • 통계량과 p-value를 이용해

      “이 정도 결과가 우연으로 나올 확률이 얼마나 되는가?”
      를 보고, 귀무가설을 유지할지/기각할지 결정한다.


🧷 한 줄 정리

  • 기술통계
    → 이미 가지고 있는 데이터를 요약·정리하는 것
    (평균, 중앙값, 분산, 표준편차 등)

  • 추론통계
    → 일부 데이터(표본)를 가지고 모집단 전체의 특징을 추정하거나,
    특정 주장(가설)이 맞는지 검정하는 방법
    (신뢰구간, 가설검정 등)

profile
재밌게 사는사람

0개의 댓글