통계 12: 상관관계

ヒヒヒ·2025년 10월 1일

통계

목록 보기
12/13
post-thumbnail

📌 상관관계(correlation)

정의

  • 두 변수가 함께 움직이는 관계

특징

  • 현실 데이터는 변수가 쌍으로 존재하는 경우가 많음
  • 단일 변수의 평균/분산만 보지 말고, 관계도 함께 봐야 함
    • 단일 변수의 평균/분산
      • 학생들의 수학 점수의 평균 = 70점, 분산 = 100점²
      • 점수가 대체로 몇 점인지 알 수는 있으나, “왜 어떤 학생은 높고 어떤 학생은 낮은지” 설명할 수 없음
      • 관계: 공부 시간이 늘수록 점수가 올라가는 경향을 확인할 수 있음
  • 상관계수는 양적(숫자) 변수끼리만 계산 가능
    • 성별(남/여)과 점수(70, 100)의 상관은 직접 계산할 수 없음
    • 해결책: 교차표, 카이제곱 검정, 평균 차이 검정 등의 방법 사용

예시

  • 성별(범주형) ↔ 점수(수치형): 상관 계산 불가
  • 공부시간(수치형) ↔ 점수(수치형): 상관 분석 가능
학생성별공부시간점수
A150
B365
C580

📌 산점도(scatter plot)

정의

  • 두 변수 사이의 관계를 시각화하는 그래프

특징

  • 각 변수의 값(x, y)을 좌표에 점으로 표시
  • 관계 파악
    • 우상향(↗): 양의 상관(하나의 변수가 커질수록 다른 변수도 커짐)
    • 우하향(↘): 음의 상관(하나의 변수가 커질수록 다른 변수는 작아짐)
    • 무질서: 약한 상관
  • 원인/결과를 보여주지 않음(함께 움직이는 경향만 보여줌)

예시

  • 양의 상관: 공부시간이 늘수록 시험점수 증가
  • 음의 상관: 나이가 들수록 게임시간 감소
  • 관계 없음: 주민번호와 시험점수는 아무런 관계가 없음

중요성

  • 상관계수(r)만 보고 판단하면 위험
  • 숫자는 쉽게 왜곡되어 그래프로 직관적인 확인이 필요

    💡 숫자의 왜곡
    수치형 데이터의 대표값(평균)은 이상치에 민감하기에 쉽게 왜곡됨


📌 상관계수

정의

  • 산점도에서 점들이 직선에 얼마나 가까운지를 수치화한 것

특징

  • 범위: -1 ~ +1
  • 방향과 강도를 함께 보여줌
    • 방향: +,-
    • 강도: , ,
  • 산점도의 패턴을 하나의 숫자로 요약
    • 데이터가 많을수록 산점도만으로 해석하기 어려움
    • 사람마다 그래프 해석이 주관적일 수 있으므로 숫자를 통해 객관성을 확보

한계점

  • 상관계수는 두 변수 간 관계를 보여주지만 인과관계나 영향의 크기를 알 수 없음
    • 예: 광고비 증가와 매출 증가의 관계는 알 수 있지만, 광고비 100만 원 증가 시 매출 증가분은 알 수 없음
    • 예: 공부 시간 1시간 증가와 점수 상승의 관계는 알 수 있지만, 점수가 얼마나 올라가는지는 알 수 없음

예시

  • r = 0.95
  • r = -0.81
  • r = 0.04

📌 회귀

정의

  • 변수 간의 영향력을 파악하는 도구

    💡 상관 vs 회귀

    • 상관: 두 변수(x, y) 간의 관계만 확인하며, 순서(x → y 또는 y → x)는 중요하지 않음
    • 회귀: 설명변수(x)와 반응변수(y)를 설정해 방향성을 가정하며, x의 변화가 y에 미치는 영향을 분석 (x→y 순서 중요)

    ➡️ 회귀는 한 변수(x)가 다른 변수(y)에 미치는 효과를 분석

예시

  • 상관: "공부 시간과 점수가 함께 증가한다."
  • 회귀: "공부 시간이 1시간 증가하면 점수가 평균 5점 증가한다."

실무 팁

나쁜 보고 예: "마케팅 광고비와 매출이 관련이 있다."(모호함)
좋은 보고 예: "광고비를 100만 원 늘리면 매출이 평균 ~원 증가한다."(구체적 수치 제시)


📌 피어슨 상관계수(pearson's r)

정의

  • 두 연속형 변수 간 선형 관계의 강도와 방향을 측정하는 지표

특징

  • 2025년 9월 기준, 가장 널리 사용되는 상관계수
  • 범위: -1 ~ +1
    • r = +1: 완벽한 양의 선형 상관
    • r = -1: 완벽한 음의 선형 상관
    • r = 0: 선형 관계 없음(단, 비선형 관계는 존재할 수 있음)
  • 이상치와 결측치에 민감
  • 표본 크기가 작으면 r값이 불안정

계산: r = Cov(X, Y) / (σX x σY)

  • 분자(공(共)분산): 두 변수가 함께 움직이는 정도
  • 분모: 각 변수의 표준편차를 곱한 것

해석

  • 일반적 기준 (프로젝트에 따라 조정 가능)
    • |r| < 0.3: 약한 상관
    • 0.3 ≤ |r| < 0.7: 중간 정도의 상관
    • |r| ≥ 0.7: 강한 상관

      💡 해석 기준

      • 분야(프로젝트)에 따라 달라짐
        • 사회과학: r = 0.3도 큰 의미를 가짐
        • 물리학: r = 0.95 이상이어야 신뢰 가능

📌 이상치의 영향

영향

  • r은 평균/분산 기반이기에 이상치 하나에도 크게 흔들림

예시

  • 학생들의 공부시간과 점수의 상관계수(r) ≈ 0.99
  • 학생 한 명이 백지 제출(0점)하면 상관계수(r) ≈ 0.91로 급격히 급락

🚨 r값만으로 판단하면 잘못 해석할 수 있으므로, 반드시 산점도 그래프를 함께 확인해야 함


📌 비모수 상관계수(spearman)

💡 모수 vs 비모수

  • 모수: 데이터 분포의 파라미터(예: 평균, 표준편차)를 뜻하며, 대표적으로 정규분포를 가정
  • 비모수: 정규분포를 따르지 않는 데이터에 적합한 방법

정의

  • 실제 값 대신 순위(등수)를 이용하여 상관을 측정하는 방법

    💡 피어슨 vs 스피어만
    피어슨: 데이터의 실제 값을 사용해 두 변수 간 선형 상관관계를 측정
    스피어만: 데이터의 실제 값 대신 순위를 사용해 상관관계를 측정

특징

  • 실제 값 대신 순위 정보를 사용하므로 이상치에 덜 민감
  • 비선형(곡선형) 관계를 잡아낼 수 있음

예시

  • 금융 주가처럼 극단값이 많은 경우 사용
  • 설문(1~5점 서열 척도) 분석

📌 상관계수와 가설검정

가설검정 이유

  • r값만 계산하면, 두 변수의 관계가 우연일 수 있음 → 통계 검정 필요

예시

  • r의 95% 신뢰구간 = [-0.1, 0.6] → 0 포함 → 상관 없음일 수도 있음
  • r의 95% 신뢰구간 = [0.2, 0.7] → 0 미포함 → 유의한 상관

📌 비선형 관계

💡 피어슨 상관계수는 선형 관계만 측정하므로, r = 0(관계 없음)일때, 비선형(곡선) 관계를 놓칠 수 있음

예시

  • 공부시간과 집중력

    • 1시간 → 집중력 낮음
    • 5시간 → 집중력 최고
    • 12시간 → 집중력 하락
      ➡️ 그래프가 곡선 모양인 관계에서는 r ≈ 0일 수 있음(강한 비선형 관계)
  • 광고비와 매출

    • 광고비가 일정 수준까지 증가하면 매출도 증가
    • 일정 수준을 초과하면 광고 효과가 감소하거나 손해 발생
      ➡️ 선형 관계만 분석하면 상관이 없어 보일 수 있으나, 실제로는 비선형 관계를 가짐

0개의 댓글