| 구분 | 카이제곱 검정 | 독립 표본 t-검정 | 상관관계 분석 |
|---|---|---|---|
| 검정 목적 | 두 범주형 변수 간의 관련성이 있는지 검정 | 두 집단의 평균 차이가 있는지 검정 | 두 수치형 변수 간의 관계를 확인 |
| 데이터 유형 | 범주형 - 범주형 | 범주형(집단 구분) - 수치형 | 수치형 - 수치형 |
| 예시 | 유입경로 vs 클릭여부 | 성별 vs 독서중단 위치 평균 | 나이 vs 독서중단 위치 |
| 사용 코드 | 분할표 생성 contingency_table = pd.crosstab반환값: (카이제곱 통계량, P-value, 자유도, 기대 빈도표) chi2, p_value, df_chi2, expected_frequencies = stats.chi2_contingency(contingency_table) | t-statistic과 p-value를 반환 t_statistic, p_value = stats.ttest_ind(group_male, group_female) | correlation_matrix=df.corr(method='pearson')from scipy.stats import pearsonr 상관계수 및 p-value 계산corr_age_ep, p_value_age_ep = pearsonr(numeric_df['age'], numeric_df['exit_position_numeric']) |
| 통계량 | 카이제곱 통계량 (Chi²) | t 통계량 (T-statistic) | 상관계수 (corr), p-value |
| 해석 기준 | p-value < 0.05 → 관련 있음 | p-value < 0.05 → 평균 차이 있음 | p-value < 0.05 → 유의한 상관관계 |
| 결과 해석 예시 | “유입경로에 따라 클릭률이 다르다” | “남녀 간 평균 독서 위치 차이 존재” | “나이 많을수록 완독 위치가 낮아진다” 등 |
| 유의사항 | 기대 빈도 5 이상인지 확인 | 두 그룹 데이터 퍼진 정도가 너무 다르면 안됨, 이상치에 민감 | 인과관계 아님에 유의, 비선형 관계 파악 어려움-피어슨은 선형관계의 강도만 측정 |