[2025.12.12] 오늘의 학습 키워드 - 통계학 기초 복습

허진원·2025년 12월 12일

내일배움캠프 TIL

목록 보기
34/41
  1. 오늘 학습 키워드
    통계학 기초 - 데이터 분석에서의 통계의 의미, 빈도주의 관점에서 본 통계 목표(방향성)
  1. 오늘 학습한 내용을 나만의 언어로 정리하기
    오늘은 지난 일주일 내내 나를 괴롭힌 통계에 대해서 복습하는 시간을 가졌다.

통계 관련 지식은 워낙 방대해서 정말 일부분만 배웠을 뿐이지만, 그마저도 상당히 어려운 학문이라고 생각한다. 그런 어려운 것이 데이터 분석 실무에 맞춰서 꼭 필요한 이론과 내용들만 정리되고, 그 부분만 공부하게 되어서 참 다행이라고 느끼고 있다...

학문적인 의미의 통계는 물론 굉장히 어렵지만, 우리는 이미 일상생활에서 통계를 직감적으로 사용하고 있다. 가령 어떤 물건을 구매할 때, 이전의 물가 상황을 고려해서 구매하려는 상품 중 어떤 브랜드의 상품이 더욱 저렴한지, 정말 사소하게는 아침에 기상할 때 어떤 상태일 때 다리에 쥐가 날 것인지 등을 예로 들 수 있겠다.

오늘 학습한 통계학 기초는 이런 내용을 약간의 계산식을 덧붙여 데이터 분석에 적용할 수 있도록 도와주는 역할을 한다. 이전 기초 프로젝트에서 했던 EDA 과정도 일종의 기술 통계로, 우리는 이미 통계를 활용해서 데이터 분석을 진행해보았다.

  1. 학습 내용

📘 통계 1강


🔑 주요 내용

  • 통계를 배우는 이유

    • 단순히 사실을 전달하는 것이 아니라, 데이터를 근거로 의사결정과 설득을 하기 위함
    • 신뢰할 수 있는 추론과 검증, 이상값·편향 확인, 머신러닝 기반 이해, 설득력 있는 인사이트 도출
  • 기술 통계 vs 추론 통계

    • 기술 통계: 현재 데이터를 요약·설명 (평균, 중앙값, 최빈값, 분산, 표준편차 등)
    • 추론 통계: 표본 데이터를 통해 모집단을 추정·검정 (확률, 신뢰구간, 가설검정 활용)
  • 확률 기초

    • 확률변수(이산형/연속형), 확률분포, 기댓값, 조건부확률
    • 추론 통계는 확률을 기반으로 불확실성을 다루며, 조건부확률은 핵심 도구
  • 추론 통계

    • 추정: 모집단의 평균·비율을 표본으로 추정 (신뢰구간 활용)
    • 가설검정: 표본 차이가 우연인지 의미 있는지 판단 (p-value, Z값 등)
  • 정규분포와 표준화

    • 정규분포: 평균과 분산으로 결정되는 종 모양 분포
    • 중심극한정리: 표본 평균은 정규분포 형태로 수렴
    • 표준화(Z-score): 서로 다른 단위를 비교 가능하게 변환

⭐ 핵심 메시지

  • 데이터는 단순한 숫자에 불과하지만, 통계는 이를 의미 있는 정보로 바꾸는 도구
  • 데이터 분석가는 사실을 전달하는 사람이 아니라, 사실을 근거로 설득하는 사람
  • 실무에서는 특히 두 가지 질문에 집중:
    1. A가 나은가 B가 나은가? (AB 테스트)
    2. X에 영향을 주는 것은 무엇인가? (인과관계 분석)

👉 즉 통계란, 데이터 분석가가 반드시 알아야 할 통계적 사고의 출발점이고, 나아가 단순 계산이 아닌 결과 해석과 의사결정 활용을 위한 설득적 도구이다.


📊 통계 2강


🔑 주요 내용

  • 추정(Estimation)

    • 모집단의 평균(μ), 표준편차(σ)는 직접 알 수 없으므로 표본 통계량(𝑥̄, s)으로 추정
    • 빈도주의(Frequentist): 모수는 고정된 값, 표본은 랜덤
    • 베이지안(Bayesian): 불확실성을 확률로 표현 (여기서는 빈도주의 관점 중심)
  • 표본오차와 표준오차(SE)

    • 표본평균은 모집단 평균 주변에서 흔들림 → 오차 존재
    • 표본 크기 n이 커질수록 SE ↓, 모집단 평균에 가까워짐 (큰 수의 법칙)
    • 중심극한정리: 표본평균의 분포는 정규분포로 근사됨
  • 신뢰구간(Confidence Interval)

    • 점추정은 불확실성을 담기 어려움 → 구간추정 필요
    • 95% 신뢰구간: 반복 추출 시 약 95% 구간이 모집단 평균 포함
    • Z-분포: 모집단 σ를 알 때 사용
    • t-분포: σ를 모를 때, 표본 표준편차 s 사용 → 자유도(df)에 따라 분포 모양 변화
  • 가설검정(Hypothesis Testing)

    • 귀무가설(H₀): 차이가 없다
    • 대립가설(H₁): 차이가 있다
    • p-value: 귀무가설이 참일 때 현재 데이터가 나올 확률
      • p < 0.05 → 귀무가설 기각 (유의미한 차이 있음)
      • p ≥ 0.05 → 귀무가설 유지 (차이가 우연일 수 있음)
    • 주의: p-value는 “귀무가설이 참일 확률”이 아님, 단지 데이터가 얼마나 극단적인지의 척도

⭐ 핵심 메시지

  • 추정: 표본으로 모집단 모수를 추정
  • 신뢰구간: 불확실성을 수치로 표현
  • 가설검정: 차이가 우연인지 실제 효과인지 판단
  • p-value는 해석에 주의해야 하며, 단순히 확률로 오해하면 안 됨

👉 빈도주의 관점에서 모집단을 추정하고, 신뢰구간과 가설검정을 통해 데이터의 의미를 검증하는 방법을 학습했다.

  1. 학습하며 느낀 점
    오늘 학습한 통계학 기초는 이런 내용을 약간의 계산식을 덧붙여 데이터 분석에 적용할 수 있도록 도와주는 역할을 한다. 이전 기초 프로젝트에서 했던 EDA 과정도 일종의 기술 통계로, 우리는 이미 통계를 활용해서 데이터 분석을 진행해보았다.

상당히 어려운 내용이었지만, 이미 한 번 적용해 본 것이라면 그렇게까지 겁먹지는 않아도 된다고 생각한다. 결국 앞으로의 분석 과정에서도 필요한 내용이기도 하고.

계산식도 꽤나 복잡하긴 했다만 결국 계산은 컴퓨터가 해주기 때문에, 우리는 통계 코드를 정확하게 짜는 연습을 하면 된다. 뭐, 지금까지와 큰 차이는 없다는 뜻이다. 역시나 오늘의 결론도 "집중해서 열심히 공부하자!"가 되었다.

마치며 : 기다리고 기다리던 주말이다! 팀원 중 한 분이 방어 주문 사이트를 추천해주셔서 바로 방어를 주문했다.

오랜만에 먹는 방어이니만큼, 맛이 좋길 기도하고 있다. 그러면 주말동안의 즐거운 마음으로 다시 다음 주를 활기차게 보낼 수 있을 것 같다. 여러분도 주말동안 맛있는 음식을 마음껏 먹으시길 바란다.

profile
국문과 전공 데이터 입문자

0개의 댓글