통계(5) - 분포&상관계수... 헷갈려서 다시 정리

hyun-jin·2025년 4월 10일

데이터 분석

목록 보기
40/100

데이터 분석 36일

상황 : 피시방 사장님 데이터 분석 스토리

📁 데이터

  • 고객 나이
  • 이용 시간
  • 사용 금액
  • 성별
  • 자주 오는지 여부 (yes/no)

1. 분포 정리

Step 1. 일단 데이터 모양부터 보자 (정규분포 확인)

→ 컬럼별 히스토그램 또는 정규성 검정

  • 나이 : 종모양 아니고 편향 좀 있음
  • 이용시간 : 한쪽으로 치우침
  • 사용금액 : 뾰족하거나 치우침

→ 결론 : 딱 정규분포는 아님 (많이 왜곡됨)


Step 2. 남자랑 여자 평균 이용시간 비교하고 싶음

"남자 고객 vs 여자 고객평균 이용시간 차이 있을까?"

→ 그룹 2개
숫자 데이터
→ 검정 방법 : t-test (t-분포 사용)

→ 결과 : p-value < 0.05
→ 결론 : "차이 있음" → 성별 따라 평균 이용시간 차이 있다!


Step 3. 남자 여자 + 기타 성별 3그룹 평균 사용금액 비교

"성별이 남/여/기타인데 평균 사용금액 차이 있을까?"

→ 그룹 3개 이상
숫자 데이터
→ 검정 방법 : ANOVA (F-분포 사용)

→ 결과 : p-value > 0.05
→ 결론 : "차이 없음" → 성별로 금액 차이 없다.


Step 4. 남자 여자에 따라 자주 오는 비율 다를까?

"성별에 따라 단골 비율이 다를까?"

→ 그룹 : 범주형 데이터 (성별, yes/no)

→ 검정 방법 : 카이제곱 검정 (카이제곱 분포 사용)

→ 결과 : p-value < 0.05
→ 결론 : "연관 있음" → 성별에 따라 단골 비율 다름


Step 5. 하루 전화 문의 수 예측하고 싶음

"하루 고객 전화 문의 몇건 올까?"

→ 데이터 : 건수(횟수)
→ 검정 방법 : 포아송 분포 기반 모델 사용 (포아송 회귀)


📝전체 흐름 정리 (완전 머릿속 로드맵)

  1. 데이터 모양 체크 → 정규분포?
  2. 그룹 비교
    • 2그룹 평균 → t-test
    • 3그룹 이상 평균 → ANOVA(F-test)
  3. 범주형 → 카이제곱검정
  4. 횟수, 발생수 → 포아송분포

2. 상관계수

이번에는 사장님이 궁금한게 생김 ↓
"이용시간이 많을수록 요금 많이 나오겠지? 상관관계 얼마나 되려나?"

  • 상관계수 등장!

상관계수 : x랑 y가 얼마나 같이 움직이는지 보는 지표 ( -1 ~ 1 사이 값 )
1 → 완전 같이 증가
0 → 아무 관계 없음
-1 → 하나 오르면 하나는 무조건 내려감


❗️ 그런데 상관계수 종류가 여러개다?!

"데이터 상황 따라 쓰는 상관계수 종류가 다름!"


📅 상황별 정리표

종류특징언제 씀?키워드
피어슨 (Pearson)숫자형 & 정규분포숫자 데이터 / 직선 관계선형적, 정규분포
스피어만 (Spearman)순위 기반숫자든 범주든 / 순서만 중요비선형, 이상치 있어도 OK
켄달 타우 (Kendall Tau)순위 기반 (스피어만 보완판)데이터 수 적거나더 민감, 섬세

- 쉽게 상황별 정리

  1. 숫자 데이터 & 선형관계 의심
    → Pearson 피어슨 상관계수
    (예: 시간 vs 요금)

  2. 숫자긴 한데 선형 아닌거 같거나 이상치 많음
    → Spearman 스피어만 상관계수
    (예: 키 vs 몸무게 but 좀 꼬여있음)

  3. 순위, 서열만 중요 or 데이터 적음
    → Kendall Tau 켄달타우
    (예: 만족도 순위, 등수 비교 등)


비모수(non-parametric) 라는게 뭐냐?

→ "분포 안 따짐"
→ 그냥 값 간 비교만 함 → Spearman, Kendall 가 비모수 계열


📃 한줄 정리 마인드

"데이터 깔끔 → 피어슨 / 꼬였거나 순위 → 스피어만 / 더 민감하거나 데이터 적음 → 켄달 타우"


🗝️ 총 정리!

📈 [1] 통계 분포 & 검정 정리표 (상황별)

상황데이터 형태사용하는 분포사용하는 검정비고
데이터 모양 확인숫자형 데이터정규분포정규성 검정히스토그램, 샤피로검정 등
평균 비교 (2그룹)숫자형 데이터 & 그룹 2개t-분포t-test남 vs 여 평균
평균 비교 (3그룹 이상)숫자형 데이터 & 그룹 3개 이상F-분포ANOVA남/여/기타 평균
비율/빈도 비교범주형 데이터카이제곱 분포카이제곱검정성별 vs 흡연 여부
횟수, 건수 예측발생횟수 데이터포아송 분포포아송회귀하루 전화 건수 등

🔎 [2] 상관계수 정리표 (상황별)

상황데이터 형태사용하는 상관계수특징비고
숫자형 & 선형관계숫자형 & 정규분포 데이터Pearson 피어슨선형만 잘 잡음예: 시간 vs 요금
숫자형 & 비선형 or 이상치숫자형 but 데이터 꼬임Spearman 스피어만순위 기반 / 이상치 강함예: 나이 vs 게임시간
서열/순위/등수 비교순위 or 범주 데이터Kendall Tau 켄달타우스피어만보다 더 민감예: 만족도 등수 비교

💭 통계...정리를 해도 자꾸 까먹는다. 이번엔 좀 기억하길...

0개의 댓글