퍼포먼스 마케터 부트캠프 8주 1일차(참여 30일차)

MIN BAEK·2025년 6월 30일
0

자주 쓰이는 세가지 검정

구분카이제곱 검정독립 표본 t-검정상관관계 분석
검정 목적범주형 변수 간의 관련성이 있는지 검정집단의 평균 차이가 있는지 검정수치형 변수 간의 관계를 확인
데이터 유형범주형 - 범주형범주형(집단 구분) - 수치형수치형 - 수치형
예시유입경로 vs 클릭여부성별 vs 독서중단 위치 평균나이 vs 독서중단 위치
사용 코드분할표 생성 contingency_table = pd.crosstab
반환값: (카이제곱 통계량, P-value, 자유도, 기대 빈도표)
chi2, p_value, df_chi2, expected_frequencies = stats.chi2_contingency(contingency_table)
t-statistic과 p-value를 반환
t_statistic, p_value = stats.ttest_ind(group_male, group_female)
correlation_matrix=df.corr(method='pearson')
from scipy.stats import pearsonr
상관계수 및 p-value 계산
corr_age_ep, p_value_age_ep = pearsonr(numeric_df['age'], numeric_df['exit_position_numeric'])
통계량카이제곱 통계량 (Chi²)t 통계량 (T-statistic)상관계수 (corr), p-value
해석 기준p-value < 0.05 → 관련 있음p-value < 0.05 → 평균 차이 있음p-value < 0.05 → 유의한 상관관계
결과 해석 예시“유입경로에 따라 클릭률이 다르다”“남녀 간 평균 독서 위치 차이 존재”“나이 많을수록 완독 위치가 낮아진다” 등
유의사항기대 빈도 5 이상인지 확인두 그룹 데이터 퍼진 정도가 너무 다르면 안됨, 이상치에 민감인과관계 아님에 유의, 비선형 관계 파악 어려움-피어슨은 선형관계의 강도만 측정
profile
안녕하세요 백민입니다:)

0개의 댓글