통계 12: 상관관계

ヒヒヒ·2025년 10월 1일

통계

목록 보기

12/13

📌 상관관계(correlation)

정의

두 변수가 함께 움직이는 관계

특징

현실 데이터는 변수가 쌍으로 존재하는 경우가 많음
단일 변수의 평균/분산만 보지 말고, 관계도 함께 봐야 함
- 단일 변수의 평균/분산
  - 학생들의 수학 점수의 평균 = 70점, 분산 = 100점²
  - 점수가 대체로 몇 점인지 알 수는 있으나, “왜 어떤 학생은 높고 어떤 학생은 낮은지” 설명할 수 없음
  - 관계: 공부 시간이 늘수록 점수가 올라가는 경향을 확인할 수 있음
상관계수는 양적(숫자) 변수끼리만 계산 가능
- 성별(남/여)과 점수(70, 100)의 상관은 직접 계산할 수 없음
- 해결책: 교차표, 카이제곱 검정, 평균 차이 검정 등의 방법 사용

예시

성별(범주형) ↔ 점수(수치형): 상관 계산 불가
공부시간(수치형) ↔ 점수(수치형): 상관 분석 가능

학생	성별	공부시간	점수
A	남	1	50
B	여	3	65
C	남	5	80

📌 산점도(scatter plot)

정의

두 변수 사이의 관계를 시각화하는 그래프

특징

각 변수의 값(x, y)을 좌표에 점으로 표시
관계 파악
- 우상향(↗): 양의 상관(하나의 변수가 커질수록 다른 변수도 커짐)
- 우하향(↘): 음의 상관(하나의 변수가 커질수록 다른 변수는 작아짐)
- 무질서: 약한 상관
원인/결과를 보여주지 않음(함께 움직이는 경향만 보여줌)

예시

양의 상관: 공부시간이 늘수록 시험점수 증가
음의 상관: 나이가 들수록 게임시간 감소
관계 없음: 주민번호와 시험점수는 아무런 관계가 없음

중요성

상관계수(r)만 보고 판단하면 위험
숫자는 쉽게 왜곡되어 그래프로 직관적인 확인이 필요

💡 숫자의 왜곡
수치형 데이터의 대표값(평균)은 이상치에 민감하기에 쉽게 왜곡됨

📌 상관계수

정의

산점도에서 점들이 직선에 얼마나 가까운지를 수치화한 것

특징

범위: -1 ~ +1
방향과 강도를 함께 보여줌
- 방향: +,-
- 강도: 약, 중, 강
산점도의 패턴을 하나의 숫자로 요약
- 데이터가 많을수록 산점도만으로 해석하기 어려움
- 사람마다 그래프 해석이 주관적일 수 있으므로 숫자를 통해 객관성을 확보

한계점

상관계수는 두 변수 간 관계를 보여주지만 인과관계나 영향의 크기를 알 수 없음
- 예: 광고비 증가와 매출 증가의 관계는 알 수 있지만, 광고비 100만 원 증가 시 매출 증가분은 알 수 없음
- 예: 공부 시간 1시간 증가와 점수 상승의 관계는 알 수 있지만, 점수가 얼마나 올라가는지는 알 수 없음

예시

r = 0.95
r = -0.81
r = 0.04

📌 회귀

정의

변수 간의 영향력을 파악하는 도구
💡 상관 vs 회귀
- 상관: 두 변수(x, y) 간의 관계만 확인하며, 순서(x → y 또는 y → x)는 중요하지 않음
- 회귀: 설명변수(x)와 반응변수(y)를 설정해 방향성을 가정하며, x의 변화가 y에 미치는 영향을 분석 (x→y 순서 중요)
➡️ 회귀는 한 변수(x)가 다른 변수(y)에 미치는 효과를 분석

예시

상관: "공부 시간과 점수가 함께 증가한다."
회귀: "공부 시간이 1시간 증가하면 점수가 평균 5점 증가한다."

실무 팁

나쁜 보고 예: "마케팅 광고비와 매출이 관련이 있다."(모호함)
좋은 보고 예: "광고비를 100만 원 늘리면 매출이 평균 ~원 증가한다."(구체적 수치 제시)

📌 피어슨 상관계수(pearson's r)

정의

두 연속형 변수 간 선형 관계의 강도와 방향을 측정하는 지표

특징

2025년 9월 기준, 가장 널리 사용되는 상관계수
범위: -1 ~ +1
- r = +1: 완벽한 양의 선형 상관
- r = -1: 완벽한 음의 선형 상관
- r = 0: 선형 관계 없음(단, 비선형 관계는 존재할 수 있음)
이상치와 결측치에 민감
표본 크기가 작으면 r값이 불안정

계산: r = Cov(X, Y) / (σX x σY)

분자(공(共)분산): 두 변수가 함께 움직이는 정도
분모: 각 변수의 표준편차를 곱한 것

해석

일반적 기준 (프로젝트에 따라 조정 가능)
- |r| < 0.3: 약한 상관
- 0.3 ≤ |r| < 0.7: 중간 정도의 상관
- |r| ≥ 0.7: 강한 상관
  💡 해석 기준
  - 분야(프로젝트)에 따라 달라짐
    - 사회과학: r = 0.3도 큰 의미를 가짐
    - 물리학: r = 0.95 이상이어야 신뢰 가능

📌 이상치의 영향

영향

r은 평균/분산 기반이기에 이상치 하나에도 크게 흔들림

예시

학생들의 공부시간과 점수의 상관계수(r) ≈ 0.99
학생 한 명이 백지 제출(0점)하면 상관계수(r) ≈ 0.91로 급격히 급락

🚨 r값만으로 판단하면 잘못 해석할 수 있으므로, 반드시 산점도 그래프를 함께 확인해야 함

📌 비모수 상관계수(spearman)

💡 모수 vs 비모수

모수: 데이터 분포의 파라미터(예: 평균, 표준편차)를 뜻하며, 대표적으로 정규분포를 가정

비모수: 정규분포를 따르지 않는 데이터에 적합한 방법

정의

실제 값 대신 순위(등수)를 이용하여 상관을 측정하는 방법

💡 피어슨 vs 스피어만
피어슨: 데이터의 실제 값을 사용해 두 변수 간 선형 상관관계를 측정
스피어만: 데이터의 실제 값 대신 순위를 사용해 상관관계를 측정

특징

실제 값 대신 순위 정보를 사용하므로 이상치에 덜 민감
비선형(곡선형) 관계를 잡아낼 수 있음

예시

금융 주가처럼 극단값이 많은 경우 사용
설문(1~5점 서열 척도) 분석

📌 상관계수와 가설검정

가설검정 이유

r값만 계산하면, 두 변수의 관계가 우연일 수 있음 → 통계 검정 필요

예시

r의 95% 신뢰구간 = [-0.1, 0.6] → 0 포함 → 상관 없음일 수도 있음
r의 95% 신뢰구간 = [0.2, 0.7] → 0 미포함 → 유의한 상관

📌 비선형 관계

💡 피어슨 상관계수는 선형 관계만 측정하므로, r = 0(관계 없음)일때, 비선형(곡선) 관계를 놓칠 수 있음

예시

공부시간과 집중력
- 1시간 → 집중력 낮음
- 5시간 → 집중력 최고
- 12시간 → 집중력 하락
  ➡️ 그래프가 곡선 모양인 관계에서는 r ≈ 0일 수 있음(강한 비선형 관계)
광고비와 매출
- 광고비가 일정 수준까지 증가하면 매출도 증가
- 일정 수준을 초과하면 광고 효과가 감소하거나 손해 발생
  ➡️ 선형 관계만 분석하면 상관이 없어 보일 수 있으나, 실제로는 비선형 관계를 가짐