지금까지 학습한
데이터 분석에 필요한 전반적인 통계 지식과 Python 기반 실습을 정리하고 회고해 보았다.
기초 통계부터 추론통계, 회귀분석, 생존분석까지 실제 예제와 시각화를 중심으로 진행하였으며, 분석 흐름과 가설 검정 및 모델 해석을 통해 통계적 사고력을 기르고 분석 기법의 의미와 활용 방식을 체득하는 것을 목표로 하였다.
🛠️ 사용 환경: Python (Pandas, Numpy, Matplotlib, Seaborn), Jupyter Notebook
| 주제 | 내용 |
|---|---|
| 중심경향치와 산포도 | 평균, 중앙값, 표준편차, 변동계수, boxplot 시각화 |
| 데이터 시각화 | 다양한 통계지표 시각화 함수, 실습용 분석 시각화 예제 |
| Numpy-random 실습 | 난수 생성, 정규분포·균등분포 시뮬레이션, 로또 생성기 |
| 주제 | 내용 |
|---|---|
| Acquisition 분석 | 유입 채널별 사용자 분석, 전환율 분석 |
| Activation 분석 | 활성화 유저 필터링, 구매 분석 |
| Retention | 코호트 분석 등 유지율 분석 |
| Referral 분석 | 추천 코드 활용 유입, 추천자 구매율 분석 |
| Revenue 분석 | CLV 계산 및 수익 시각화 |
| 기본분포 실습 | 균등분포, 베르누이, 이항분포, 정규분포 생성 및 시각화 |
| 주제 | 내용 |
|---|---|
| 대수의 법칙 | 반복 시행에 따른 확률 수렴 예시 |
| 중심극한정리 (CLT) | 각 분포의 표본평균 분포 확인 |
| 점추정과 구간추정 | 통계량의 구간 추정 및 비교 |
| 신뢰구간 계산 | t-분포 기반, 부트스트래핑 기반 구간 추정 |
| 검정 실습 | Z-검정, t-검정, A/B 테스트 실습 |
| 주제 | 내용 |
|---|---|
| 카이제곱 검정 | 적합도, 독립성, 동질성 검정 |
| ANOVA 분석 | 단일 요인 분산분석, 사후검정(신약 효과, 체류율 비교) |
| 연습문제 종합 | 신뢰구간, 가설검정, 카이제곱, 분산분석 종합 실습 |
| 주제 | 내용 |
|---|---|
| 단순선형회귀 | 단변량 예측: tip 예측, 미세먼지 영향 분석 |
| 다중선형회귀 | 복수 변수 기반 예측: 마케팅 매출 예측, 주택 가격 분석 |
| 로지스틱 회귀 | 이진 분류 모델: 유방암 진단 예측 |
| 생존분석 | Kaplan-Meier, Log-Rank Test, Cox 모델, 마케팅 생존 분석 |
중심극한정리(CLT)는 실제로도 분포 형태에 관계없이 평균의 분포가 정규분포를 따르게 되는 경향을 통해, 많은 검정의 수학적 기반이 되는 것을 확인하였다.
AARRR 분석은 퍼널 분석뿐만 아니라 추천 유입, 고객 생애 가치(CLV) 등을 통해 실제 제품 개선 방향을 도출할 수 있다.
카이제곱 검정은 마케팅 데이터처럼 범주형 값의 독립성을 평가할 때 매우 유용하며, 시각화보다 정량적 비교를 더 유용하다.
ANOVA 분석을 통해 두 그룹 이상에서 평균 차이를 검증하고, 사후 검정을 통해 어디서 차이가 발생했는지 구체적으로 파악이 가능하다.
Cox 회귀 분석에서는 변수의 생존에 대한 기여도를 Hazard Ratio를 통해 직관적으로 해석할 수 있으며, 마케팅 전략 수립에 활용할 수 있다.
마케팅, 의료, 주택 등 실제 사례 기반 회귀·생존모델을 활용하여 다양한 도메인의 데이터를 다룰 때 유의해야할 지표를 선정하는 것의 필요성과 어려움을 실감하였다.
다양한 가설 검정 실습을 통해 통계적 사고력과 실험 설계 능력을 기르는 연습이 되었고, 가설 기반 사고의 중요성을 알게 되었다.
데이터 분석에서의 통계는 수치 계산 그 자체보다, 데이터를 해석하고 이를 의사결정에 연결한다는 점이 흥미로웠다.
처음에는 통계 수식 위주의 이론이 추상적으로 느껴졌지만, 시뮬레이션과 시각화와 함께 이해하다 보니 개념이 눈에 보이기 시작했다. 다양한 검정 기법과 회귀 모델을 실습하면서 데이터의 특성에 따라 적합한 분석 방법을 선택해야 한다는 것을 체감했지만, 쉽지 않겠다는 생각이 들었다.
또한, 생존 분석은 단순히 의료 분야뿐 아니라 마케팅, 이탈 분석, 고객 생애 주기 파악 등 다양한 비즈니스 문제 해결에 쓰일 수 있다는 점을 확인하면서 시야를 넓힐 수 있었다.
통계를 학습하는 파트였지만 실습하면서 데이터를 분석하기 전에 데이터 전처리가 얼마나 중요한지도 다시 한 번 깨달을 수 있었다. 단순한 결측치 처리나 이상치 제거가 최종 분석 결과에 큰 영향을 미치기 때문에, 향후 분석에서도 데이터 준비 단계부터 통계적 시각을 함께 가져가야겠다는 점을 느꼈다.
분석 목적에 따라 적절한 통계 기법을 선택하고, 결과를 해석하는 통계적 사고 과정, 그리고 이를 시각화하여 분석 결과를 직관적으로 전달하는 능력을 기르는 것이 필요하겠다. 이런 생각이 들면서 통계 관련 책을 읽기 시작했는데 한정되어 있던 사고를 넓히는 데 도움이 되어 독서를 꾸준히 하려고 노력 중이다. 이러한 목표를 가지고 앞으로의 학습 방향을 잡아나갈 계획이다.
데이터 분석에 필요한 통계를 실습 중심으로 구성하여, 실제 데이터를 기반으로 다양한 통계 기법을 적용하고 해석하는 경험을 쌓는 데 중점을 두었다.
앞으로도 분석 역량을 강화하기 위해 추가적인 프로젝트와 고급 통계 기법 학습을 지속적으로 확장해 나갈 예정이다.