공부를 하면서 든 조금 근본적인 의문...
왜 분포나 회귀 같은 것들을 알아야할까?
데이터의 전체적인 생김새를 알려준다!
이 데이터가 어떻게 퍼져있는지? 많이 나오는 값은 뭐고, 특이한 값이 있는지?
| 할 수 있는 일 | 분포가 필요한 이유 |
|---|---|
| 평균, 중앙값 해석 | 정규분포인지 아닌지에 따라 의미 달라짐 |
| 이상치 탐지 | 분포에서 너무 벗어난 값이 뭔지 판단 가능 |
| 확률 예측 | “이런 값 나올 확률이 몇 %?” 같은 질문 가능 |
| 통계 검정 | 대부분의 통계 기법은 분포 가정이 들어감 (ex. 정규분포) |
회귀는 "두 변수 사이의 관계"를 수식으로 나타내는 도구이다.
| 할 수 있는 일 | 회귀가 필요한 이유 |
|---|---|
| 인사이트 도출 | 어떤 요인이 영향을 많이 주는지 파악 가능 |
| 예측 모델링 | 특정 수치를 예측할 수 있음 (ex. 매출, 점수 등) |
| 가설 검정 | “정말 관계가 있는가?”를 통계적으로 검증 |
| 비즈니스 전략 | KPI에 영향을 주는 요소 파악 및 최적화 |
분포 : 데이터의 구조와 특성 파악
회귀 : 변수 간의 관계, 예측
즉, 분포는 데이터를 이해하는 눈
회귀는 데이터를 활용하는 손
두 변수 간의 관계가 어느 정도 강한지, 어느 방향으로 가는지 수치로 나타낸 것
→ -1부터 1 사이의 값
회귀 분석에서 독립변수들끼리 너무 높은 상관관계를 갖는 현상
ex) 공부시간과 모의고사 점수가 매우 비슷하다면, 회귀 모델에 두 변수를 동시에 넣으면 모델이 헷갈림, 어떤 변수가 영향을 줬는지 모호해짐