[통계] 데이터 분석을 위한 통계 회고

jul ee·2025년 4월 29일

데이터 성장기

목록 보기
75/139

📝 데이터 분석을 위한 통계 실습 정리 및 회고

지금까지 학습한
데이터 분석에 필요한 전반적인 통계 지식과 Python 기반 실습을 정리하고 회고해 보았다.

기초 통계부터 추론통계, 회귀분석, 생존분석까지 실제 예제와 시각화를 중심으로 진행하였으며, 분석 흐름과 가설 검정 및 모델 해석을 통해 통계적 사고력을 기르고 분석 기법의 의미와 활용 방식을 체득하는 것을 목표로 하였다.

🛠️ 사용 환경: Python (Pandas, Numpy, Matplotlib, Seaborn), Jupyter Notebook


학습 목표

  • 기초 통계 개념 이해: 평균, 분산, 표준편차 등 기술 통계를 Python으로 계산하고 시각화
  • AARRR 프레임워크 기반 분석: 실제 비즈니스에서 고객 행동을 어떻게 정량화하고 분석하는지 이해
  • 추론 통계 및 검정 기법 체득: 가설 설정과 검정의 의미를 알고, 통계적 유의성을 판단하는 법 습득
  • 회귀분석/생존분석 실전 적용: 데이터를 기반으로 모델을 설계하고, 모델 해석 및 인사이트 도출 능력 강화
  • 통계 활용 경험 쌓기: 이론을 이해하는 것에서 나아가 마케팅, 제품 분석 등 다양한 사례에 통계 기법 적용


학습 과정 (with Issues🔗)

Part 1. 기초통계🔗

주제내용
중심경향치와 산포도평균, 중앙값, 표준편차, 변동계수, boxplot 시각화
데이터 시각화다양한 통계지표 시각화 함수, 실습용 분석 시각화 예제
Numpy-random 실습난수 생성, 정규분포·균등분포 시뮬레이션, 로또 생성기

Part 2. AARRR 분석 & 기본분포🔗

주제내용
Acquisition 분석유입 채널별 사용자 분석, 전환율 분석
Activation 분석활성화 유저 필터링, 구매 분석
Retention코호트 분석 등 유지율 분석
Referral 분석추천 코드 활용 유입, 추천자 구매율 분석
Revenue 분석CLV 계산 및 수익 시각화
기본분포 실습균등분포, 베르누이, 이항분포, 정규분포 생성 및 시각화

Part 3. 추론통계 및 검정실습🔗

주제내용
대수의 법칙반복 시행에 따른 확률 수렴 예시
중심극한정리 (CLT)각 분포의 표본평균 분포 확인
점추정과 구간추정통계량의 구간 추정 및 비교
신뢰구간 계산t-분포 기반, 부트스트래핑 기반 구간 추정
검정 실습Z-검정, t-검정, A/B 테스트 실습

Part 4. 카이제곱 검정 & ANOVA🔗

주제내용
카이제곱 검정적합도, 독립성, 동질성 검정
ANOVA 분석단일 요인 분산분석, 사후검정(신약 효과, 체류율 비교)
연습문제 종합신뢰구간, 가설검정, 카이제곱, 분산분석 종합 실습

Part 5. 회귀분석 및 생존분석🔗

주제내용
단순선형회귀단변량 예측: tip 예측, 미세먼지 영향 분석
다중선형회귀복수 변수 기반 예측: 마케팅 매출 예측, 주택 가격 분석
로지스틱 회귀이진 분류 모델: 유방암 진단 예측
생존분석Kaplan-Meier, Log-Rank Test, Cox 모델, 마케팅 생존 분석


인사이트

  • 중심극한정리(CLT)는 실제로도 분포 형태에 관계없이 평균의 분포가 정규분포를 따르게 되는 경향을 통해, 많은 검정의 수학적 기반이 되는 것을 확인하였다.

  • AARRR 분석은 퍼널 분석뿐만 아니라 추천 유입, 고객 생애 가치(CLV) 등을 통해 실제 제품 개선 방향을 도출할 수 있다.

  • 카이제곱 검정은 마케팅 데이터처럼 범주형 값의 독립성을 평가할 때 매우 유용하며, 시각화보다 정량적 비교를 더 유용하다.

  • ANOVA 분석을 통해 두 그룹 이상에서 평균 차이를 검증하고, 사후 검정을 통해 어디서 차이가 발생했는지 구체적으로 파악이 가능하다.

  • Cox 회귀 분석에서는 변수의 생존에 대한 기여도를 Hazard Ratio를 통해 직관적으로 해석할 수 있으며, 마케팅 전략 수립에 활용할 수 있다.

  • 마케팅, 의료, 주택 등 실제 사례 기반 회귀·생존모델을 활용하여 다양한 도메인의 데이터를 다룰 때 유의해야할 지표를 선정하는 것의 필요성과 어려움을 실감하였다.

  • 다양한 가설 검정 실습을 통해 통계적 사고력과 실험 설계 능력을 기르는 연습이 되었고, 가설 기반 사고의 중요성을 알게 되었다.



회고

데이터 분석에서의 통계는 수치 계산 그 자체보다, 데이터를 해석하고 이를 의사결정에 연결한다는 점이 흥미로웠다.

처음에는 통계 수식 위주의 이론이 추상적으로 느껴졌지만, 시뮬레이션과 시각화와 함께 이해하다 보니 개념이 눈에 보이기 시작했다. 다양한 검정 기법과 회귀 모델을 실습하면서 데이터의 특성에 따라 적합한 분석 방법을 선택해야 한다는 것을 체감했지만, 쉽지 않겠다는 생각이 들었다.
또한, 생존 분석은 단순히 의료 분야뿐 아니라 마케팅, 이탈 분석, 고객 생애 주기 파악 등 다양한 비즈니스 문제 해결에 쓰일 수 있다는 점을 확인하면서 시야를 넓힐 수 있었다.

통계를 학습하는 파트였지만 실습하면서 데이터를 분석하기 전에 데이터 전처리가 얼마나 중요한지도 다시 한 번 깨달을 수 있었다. 단순한 결측치 처리나 이상치 제거가 최종 분석 결과에 큰 영향을 미치기 때문에, 향후 분석에서도 데이터 준비 단계부터 통계적 시각을 함께 가져가야겠다는 점을 느꼈다.

분석 목적에 따라 적절한 통계 기법을 선택하고, 결과를 해석하는 통계적 사고 과정, 그리고 이를 시각화하여 분석 결과를 직관적으로 전달하는 능력을 기르는 것이 필요하겠다. 이런 생각이 들면서 통계 관련 책을 읽기 시작했는데 한정되어 있던 사고를 넓히는 데 도움이 되어 독서를 꾸준히 하려고 노력 중이다. 이러한 목표를 가지고 앞으로의 학습 방향을 잡아나갈 계획이다.

데이터 분석에 필요한 통계를 실습 중심으로 구성하여, 실제 데이터를 기반으로 다양한 통계 기법을 적용하고 해석하는 경험을 쌓는 데 중점을 두었다.

앞으로도 분석 역량을 강화하기 위해 추가적인 프로젝트와 고급 통계 기법 학습을 지속적으로 확장해 나갈 예정이다.

profile
AI에 관심을 가지고, 데이터로 가치를 만들어 나가는 과정을 기록합니다.

0개의 댓글