데이터 분석 36일
📁 데이터
- 고객 나이
- 이용 시간
- 사용 금액
- 성별
- 자주 오는지 여부 (yes/no)
→ 컬럼별 히스토그램 또는 정규성 검정
→ 결론 : 딱 정규분포는 아님 (많이 왜곡됨)
"남자 고객 vs 여자 고객 → 평균 이용시간 차이 있을까?"
→ 그룹 2개
→ 숫자 데이터
→ 검정 방법 : t-test (t-분포 사용)
→ 결과 : p-value < 0.05
→ 결론 : "차이 있음" → 성별 따라 평균 이용시간 차이 있다!
"성별이 남/여/기타인데 평균 사용금액 차이 있을까?"
→ 그룹 3개 이상
→ 숫자 데이터
→ 검정 방법 : ANOVA (F-분포 사용)
→ 결과 : p-value > 0.05
→ 결론 : "차이 없음" → 성별로 금액 차이 없다.
"성별에 따라 단골 비율이 다를까?"
→ 그룹 : 범주형 데이터 (성별, yes/no)
→ 검정 방법 : 카이제곱 검정 (카이제곱 분포 사용)
→ 결과 : p-value < 0.05
→ 결론 : "연관 있음" → 성별에 따라 단골 비율 다름
"하루 고객 전화 문의 몇건 올까?"
→ 데이터 : 건수(횟수)
→ 검정 방법 : 포아송 분포 기반 모델 사용 (포아송 회귀)
- 데이터 모양 체크 → 정규분포?
- 그룹 비교
- 2그룹 평균 → t-test
- 3그룹 이상 평균 → ANOVA(F-test)
- 범주형 → 카이제곱검정
- 횟수, 발생수 → 포아송분포
이번에는 사장님이 궁금한게 생김 ↓
"이용시간이 많을수록 요금 많이 나오겠지? 상관관계 얼마나 되려나?"
- 상관계수 등장!
상관계수 : x랑 y가 얼마나 같이 움직이는지 보는 지표 ( -1 ~ 1 사이 값 )
1 → 완전 같이 증가
0 → 아무 관계 없음
-1 → 하나 오르면 하나는 무조건 내려감
| 종류 | 특징 | 언제 씀? | 키워드 |
|---|---|---|---|
| 피어슨 (Pearson) | 숫자형 & 정규분포 | 숫자 데이터 / 직선 관계 | 선형적, 정규분포 |
| 스피어만 (Spearman) | 순위 기반 | 숫자든 범주든 / 순서만 중요 | 비선형, 이상치 있어도 OK |
| 켄달 타우 (Kendall Tau) | 순위 기반 (스피어만 보완판) | 데이터 수 적거나 | 더 민감, 섬세 |
숫자 데이터 & 선형관계 의심
→ Pearson 피어슨 상관계수
(예: 시간 vs 요금)
숫자긴 한데 선형 아닌거 같거나 이상치 많음
→ Spearman 스피어만 상관계수
(예: 키 vs 몸무게 but 좀 꼬여있음)
순위, 서열만 중요 or 데이터 적음
→ Kendall Tau 켄달타우
(예: 만족도 순위, 등수 비교 등)
→ "분포 안 따짐"
→ 그냥 값 간 비교만 함 → Spearman, Kendall 가 비모수 계열
"데이터 깔끔 → 피어슨 / 꼬였거나 순위 → 스피어만 / 더 민감하거나 데이터 적음 → 켄달 타우"
| 상황 | 데이터 형태 | 사용하는 분포 | 사용하는 검정 | 비고 |
|---|---|---|---|---|
| 데이터 모양 확인 | 숫자형 데이터 | 정규분포 | 정규성 검정 | 히스토그램, 샤피로검정 등 |
| 평균 비교 (2그룹) | 숫자형 데이터 & 그룹 2개 | t-분포 | t-test | 남 vs 여 평균 |
| 평균 비교 (3그룹 이상) | 숫자형 데이터 & 그룹 3개 이상 | F-분포 | ANOVA | 남/여/기타 평균 |
| 비율/빈도 비교 | 범주형 데이터 | 카이제곱 분포 | 카이제곱검정 | 성별 vs 흡연 여부 |
| 횟수, 건수 예측 | 발생횟수 데이터 | 포아송 분포 | 포아송회귀 | 하루 전화 건수 등 |
| 상황 | 데이터 형태 | 사용하는 상관계수 | 특징 | 비고 |
|---|---|---|---|---|
| 숫자형 & 선형관계 | 숫자형 & 정규분포 데이터 | Pearson 피어슨 | 선형만 잘 잡음 | 예: 시간 vs 요금 |
| 숫자형 & 비선형 or 이상치 | 숫자형 but 데이터 꼬임 | Spearman 스피어만 | 순위 기반 / 이상치 강함 | 예: 나이 vs 게임시간 |
| 서열/순위/등수 비교 | 순위 or 범주 데이터 | Kendall Tau 켄달타우 | 스피어만보다 더 민감 | 예: 만족도 등수 비교 |