[251117] 내배캠 D+20

최다빈·2025년 11월 17일

통계학

목록 보기
1/3

통계학 기초 - 데이터의 분포🤹


🕵️ 데이터 분석가에게 분포 이해도가 중요한 이유:

  • 분포는 데이터의 성질을 규정하는 가장 근본적인 정보다.
  • 분석가의 판단은 대부분 이 데이터가 어떤 분포인지 판단하는 데서 시작된다.
  • 가설검정·A/B 테스트·모델링 모두 분포를 모르면 잘못된 결론을 낸다.
  • 현업에서는 분포를 읽는 능력이 곧 분석가의 수준을 가르는 기준이 된다.

2.1 모집단👥과 표본👤

✔ 핵심 정리

  • 모집단 전체를 보는 일은 현실적으로 쉽지 않다.
  • 따라서 모든 분석은 표본 기반의 추정일 뿐이다.
  • 표본이 왜곡되면 결론 전체가 잘못된다 → 실무 리스크 매우 큼.

✔ 실무 연결

  • 앱 사용자 전체가 아닌 활성 사용자만 들어온 로그 데이터 → 이미 표본
  • 설문 데이터는 항상 편향된 표본
  • 추천 시스템에서도 표본 오류(노출 바이어스)가 문제

✔ 내가 느낀 포인트

  • 표본을 보는 순간 전체를 안다는 착각을 버려야 한다.
  • 데이터 품질 확인의 출발점은 이 표본이 얼마나 왜곡됐는가?이다.

2.2 표본오차🎲와 신뢰구간🔎📏

✔ 핵심 정리

  • 표본은 모집단을 100% 반영하지 못한다 → 오차 발생
  • 신뢰구간은 표본 오차를 수치화한 것
  • A/B 테스트 의사결정에서 신뢰구간은 실무 핵심

✔ 실무 연결

  • A안이 1.2% 더 높다 → 이것만으로 의사 결정하면 위험
  • 신뢰구간이 겹치는가?가 진짜 중요한 판단 포인트
  • PM이 가장 오해하는 개념 중 하나

✔ 내가 느낀 포인트

  • 신뢰구간이 넓다는 건 데이터가 말을 아직 안 하고 있다는 뜻이다.
  • 표본 숫자가 적으면 결론을 내리지 않는 용기도 분석가의 자격이다.

2.3 정규분포 🔔

✔ 핵심 정리

  • 평균 주변에 데이터가 몰리는 대칭 분포
  • 많은 통계 기법의 근간
  • 중심극한정리 때문에 중요성이 더 높아짐

✔ 실무 연결

  • 고객 나이, 체류 시간 등 일부는 정규 형태에 가깝다
  • 정규 가정이 안 맞으면 t-test, ANOVA 등이 모두 왜곡
  • 로그 변환이 필요한 이유 중 1순위: 정규성 확보

✔ 내가 느낀 포인트

  • 정규성은 이론상 기본값이지 현실의 기본값이 아니다.
  • 실제 데이터는 정규가 아닌 경우가 훨씬 많다.

2.4 긴 꼬리 분포 📈➡️

✔ 핵심 정리

  • 극단값이 자주 등장하는 비대칭 분포
  • 평균이 대표성을 잃는 구조
  • 사회·비즈니스 데이터는 대부분 긴 꼬리 형태

✔ 실무 연결

  • 매출, 검색량, 조회수, 구매액 등은 전부 긴 꼬리
  • TOP 1%가 전체의 대부분을 차지하는 상황 분석에 필수
  • 로그 변환·분위수 분석과 연결됨

✔ 내가 느낀 포인트

  • 실제 세상 데이터는 예쁘지 않다.
  • 긴 꼬리 분포를 이해해야 실무 감각이 생긴다.

2.5 스튜던트 t 분포 🔔➕

✔ 핵심 정리

  • 정규분포보다 꼬리가 두꺼움
  • 표본 수가 적을 때 사용
  • 자유도가 클수록 정규분포에 가까워짐

✔ 실무 연결

  • 소량 데이터의 평균 비교에 필수
  • 스타트업/신규 서비스처럼 데이터가 적은 환경에서 매우 중요
  • 팀에서 데이터 적어서 비교 불가?라고 할 때 해결책이 됨

✔ 내가 느낀 포인트

  • 소량의 데이터도 추론이 가능하다 자신감을 준 분포
  • t 분포를 이해하면 제한된 데이터 환경에서도 판단력이 생긴다.

2.6 카이제곱분포 📛

✔ 핵심 정리

  • 정규분포의 제곱 합
  • 분산 검정, 적합도 검정, 독립성 검정에서 등장
  • 오른쪽 꼬리의 비대칭 분포

✔ 실무 연결

  • 범주형 데이터 분석의 핵심
  • A/B 테스트의 독립성 여부 판단
  • 추천/노출 알고리즘의 적합성 검정

✔ 내가 느낀 포인트

  • 숫자형보다 범주형 데이터 분석에서 더 많이 등장한다.

2.7 이항분포 🎯

✔ 핵심 정리

  • 성공/실패처럼 2가지 결과에서 등장
  • 클릭/비클릭, 구매/비구매 등 디지털 서비스 핵심 지표의 기반
  • n 증가 시 정규분포로 근사 가능

✔ 실무 연결

  • CLV 예측의 기반
  • 마케팅 전환율 분석
  • 리텐션 분석의 핵심 확률 구조
  • 품질 관리도 중요

✔ 내가 느낀 포인트

  • 이항분포를 이해하면 비율 데이터의 감각이 정확해진다.

2.8 푸아송 분포 🔢

✔ 핵심 정리

  • 단위 시간/공간 당 발생 횟수
  • 평균 ≈ 분산
  • 희귀 사건 모델링에 강함

✔ 실무 연결

  • 유입 수, 신고 수, 오류 발생 건수 등의 분석에 필수
  • 고객센터 콜 수 예측 모델
  • 로그성 데이터 분석(SRE·모니터링)에도 매우 많이 사용

✔ 내가 느낀 포인트

  • 자주 일어나지 않지만, 일어나면 분석이 중요한 사건을 다룰 수 있는 유일한 분포.

2.9 분포 정리하기 📌 — 실무형 의사결정 로직

✔ 어떤 질문을 받으면 어떤 분포를 고려해야 하는가?

  • 평균 비교 → 정규 or t
  • 범주형 비율 비교 → 이항 or 카이제곱
  • 발생 건수 → 푸아송
  • 극단값이 많은가? → 긴 꼬리
  • 표본이 적은가? → t
  • 데이터가 비대칭인가? → 로그 변환 → 정규 근사

✔ 실무형 체크리스트

  1. 데이터는 연속형인가? 이산형인가?
  2. 값의 범위는 제한적인가?
  3. 꼬리가 두꺼운가? 대칭인가?
  4. 표본 수는 충분한가?
  5. 평균이 대표가 되는가? 분위수가 더 적절한가?
  6. 의사결정 리스크가 큰가? (신뢰구간 확인)

✔ 내가 느낀 포인트

  • 분포는 단순 개념이 아니라 데이터를 올바르게 처리하기 위한 map이다.
  • 이 지도가 있으면 문제를 보자마자 어떤 분포를 떠올려야 할지가 자동화된다.

마지막 정리 🗂️: 실무형 인사이트 💡

  • 모델링보다 데이터 자체를 이해하는 능력이 더 중요하다는 걸 실감함
  • 분포를 보고 판단하는 능력이 분석가의 레벨을 가르는 핵심
  • 긴 꼬리 분포를 이해한 순간, 현실 데이터가 왜 매번 예측과 어긋나는지 이해됨
  • A/B 테스트의 신뢰성은 거의 모두 분포 기반
  • t-분포, 카이제곱, 포아송은 데이터가 부족하거나 형태가 비대칭일 때의 구조적 해결책
  • 이 데이터는 어떤 분포를 따른다고 볼 수 있을까?라는 질문이 분석의 핵심 원칙이 됨

마무리 하며

집중도가 하락하고 있다. 단순이 흥미를 잃었다기 보단,
스트레스와 피로도가 해소되지 않고 있다는 생각이다.
모레인 19일부터 기초 프로젝트 시작인데,
그전까지 컨디션 회복을 해야겠다.

profile
Running on hopes and tiny skills...

0개의 댓글