통계학 기초 - 데이터의 분포🤹
🕵️ 데이터 분석가에게 분포 이해도가 중요한 이유:
- 분포는 데이터의 성질을 규정하는 가장 근본적인 정보다.
- 분석가의 판단은 대부분 이 데이터가 어떤 분포인지 판단하는 데서 시작된다.
- 가설검정·A/B 테스트·모델링 모두 분포를 모르면 잘못된 결론을 낸다.
- 현업에서는 분포를 읽는 능력이 곧 분석가의 수준을 가르는 기준이 된다.
2.1 모집단👥과 표본👤
✔ 핵심 정리
- 모집단 전체를 보는 일은 현실적으로 쉽지 않다.
- 따라서 모든 분석은 표본 기반의 추정일 뿐이다.
- 표본이 왜곡되면 결론 전체가 잘못된다 → 실무 리스크 매우 큼.
✔ 실무 연결
- 앱 사용자 전체가 아닌 활성 사용자만 들어온 로그 데이터 → 이미 표본
- 설문 데이터는 항상 편향된 표본
- 추천 시스템에서도 표본 오류(노출 바이어스)가 문제
✔ 내가 느낀 포인트
- 표본을 보는 순간 전체를 안다는 착각을 버려야 한다.
- 데이터 품질 확인의 출발점은 이 표본이 얼마나 왜곡됐는가?이다.
2.2 표본오차🎲와 신뢰구간🔎📏
✔ 핵심 정리
- 표본은 모집단을 100% 반영하지 못한다 → 오차 발생
- 신뢰구간은 표본 오차를 수치화한 것
- A/B 테스트 의사결정에서 신뢰구간은 실무 핵심
✔ 실무 연결
- A안이 1.2% 더 높다 → 이것만으로 의사 결정하면 위험
- 신뢰구간이 겹치는가?가 진짜 중요한 판단 포인트
- PM이 가장 오해하는 개념 중 하나
✔ 내가 느낀 포인트
- 신뢰구간이 넓다는 건 데이터가 말을 아직 안 하고 있다는 뜻이다.
- 표본 숫자가 적으면 결론을 내리지 않는 용기도 분석가의 자격이다.
2.3 정규분포 🔔
✔ 핵심 정리
- 평균 주변에 데이터가 몰리는 대칭 분포
- 많은 통계 기법의 근간
- 중심극한정리 때문에 중요성이 더 높아짐
✔ 실무 연결
- 고객 나이, 체류 시간 등 일부는 정규 형태에 가깝다
- 정규 가정이 안 맞으면 t-test, ANOVA 등이 모두 왜곡
- 로그 변환이 필요한 이유 중 1순위: 정규성 확보
✔ 내가 느낀 포인트
- 정규성은 이론상 기본값이지 현실의 기본값이 아니다.
- 실제 데이터는 정규가 아닌 경우가 훨씬 많다.
2.4 긴 꼬리 분포 📈➡️
✔ 핵심 정리
- 극단값이 자주 등장하는 비대칭 분포
- 평균이 대표성을 잃는 구조
- 사회·비즈니스 데이터는 대부분 긴 꼬리 형태
✔ 실무 연결
- 매출, 검색량, 조회수, 구매액 등은 전부 긴 꼬리
- TOP 1%가 전체의 대부분을 차지하는 상황 분석에 필수
- 로그 변환·분위수 분석과 연결됨
✔ 내가 느낀 포인트
- 실제 세상 데이터는 예쁘지 않다.
- 긴 꼬리 분포를 이해해야 실무 감각이 생긴다.
2.5 스튜던트 t 분포 🔔➕
✔ 핵심 정리
- 정규분포보다 꼬리가 두꺼움
- 표본 수가 적을 때 사용
- 자유도가 클수록 정규분포에 가까워짐
✔ 실무 연결
- 소량 데이터의 평균 비교에 필수
- 스타트업/신규 서비스처럼 데이터가 적은 환경에서 매우 중요
- 팀에서 데이터 적어서 비교 불가?라고 할 때 해결책이 됨
✔ 내가 느낀 포인트
- 소량의 데이터도 추론이 가능하다 자신감을 준 분포
- t 분포를 이해하면 제한된 데이터 환경에서도 판단력이 생긴다.
2.6 카이제곱분포 📛
✔ 핵심 정리
- 정규분포의 제곱 합
- 분산 검정, 적합도 검정, 독립성 검정에서 등장
- 오른쪽 꼬리의 비대칭 분포
✔ 실무 연결
- 범주형 데이터 분석의 핵심
- A/B 테스트의 독립성 여부 판단
- 추천/노출 알고리즘의 적합성 검정
✔ 내가 느낀 포인트
- 숫자형보다 범주형 데이터 분석에서 더 많이 등장한다.
2.7 이항분포 🎯
✔ 핵심 정리
- 성공/실패처럼 2가지 결과에서 등장
- 클릭/비클릭, 구매/비구매 등 디지털 서비스 핵심 지표의 기반
- n 증가 시 정규분포로 근사 가능
✔ 실무 연결
- CLV 예측의 기반
- 마케팅 전환율 분석
- 리텐션 분석의 핵심 확률 구조
- 품질 관리도 중요
✔ 내가 느낀 포인트
- 이항분포를 이해하면 비율 데이터의 감각이 정확해진다.
2.8 푸아송 분포 🔢
✔ 핵심 정리
- 단위 시간/공간 당 발생 횟수
- 평균 ≈ 분산
- 희귀 사건 모델링에 강함
✔ 실무 연결
- 유입 수, 신고 수, 오류 발생 건수 등의 분석에 필수
- 고객센터 콜 수 예측 모델
- 로그성 데이터 분석(SRE·모니터링)에도 매우 많이 사용
✔ 내가 느낀 포인트
- 자주 일어나지 않지만, 일어나면 분석이 중요한 사건을 다룰 수 있는 유일한 분포.
2.9 분포 정리하기 📌 — 실무형 의사결정 로직
✔ 어떤 질문을 받으면 어떤 분포를 고려해야 하는가?
- 평균 비교 → 정규 or t
- 범주형 비율 비교 → 이항 or 카이제곱
- 발생 건수 → 푸아송
- 극단값이 많은가? → 긴 꼬리
- 표본이 적은가? → t
- 데이터가 비대칭인가? → 로그 변환 → 정규 근사
✔ 실무형 체크리스트
- 데이터는 연속형인가? 이산형인가?
- 값의 범위는 제한적인가?
- 꼬리가 두꺼운가? 대칭인가?
- 표본 수는 충분한가?
- 평균이 대표가 되는가? 분위수가 더 적절한가?
- 의사결정 리스크가 큰가? (신뢰구간 확인)
✔ 내가 느낀 포인트
- 분포는 단순 개념이 아니라 데이터를 올바르게 처리하기 위한 map이다.
- 이 지도가 있으면 문제를 보자마자 어떤 분포를 떠올려야 할지가 자동화된다.
마지막 정리 🗂️: 실무형 인사이트 💡
- 모델링보다 데이터 자체를 이해하는 능력이 더 중요하다는 걸 실감함
- 분포를 보고 판단하는 능력이 분석가의 레벨을 가르는 핵심
- 긴 꼬리 분포를 이해한 순간, 현실 데이터가 왜 매번 예측과 어긋나는지 이해됨
- A/B 테스트의 신뢰성은 거의 모두 분포 기반
- t-분포, 카이제곱, 포아송은 데이터가 부족하거나 형태가 비대칭일 때의 구조적 해결책
- 이 데이터는 어떤 분포를 따른다고 볼 수 있을까?라는 질문이 분석의 핵심 원칙이 됨
마무리 하며
집중도가 하락하고 있다. 단순이 흥미를 잃었다기 보단,
스트레스와 피로도가 해소되지 않고 있다는 생각이다.
모레인 19일부터 기초 프로젝트 시작인데,
그전까지 컨디션 회복을 해야겠다.
