📌 상관관계(correlation)
정의
특징
- 현실 데이터는 변수가 쌍으로 존재하는 경우가 많음
- 단일 변수의 평균/분산만 보지 말고, 관계도 함께 봐야 함
- 단일 변수의 평균/분산
- 학생들의 수학 점수의 평균 = 70점, 분산 = 100점²
- 점수가 대체로 몇 점인지 알 수는 있으나, “왜 어떤 학생은 높고 어떤 학생은 낮은지” 설명할 수 없음
- 관계: 공부 시간이 늘수록 점수가 올라가는 경향을 확인할 수 있음
- 상관계수는 양적(숫자) 변수끼리만 계산 가능
- 성별(남/여)과 점수(70, 100)의 상관은 직접 계산할 수 없음
- 해결책: 교차표, 카이제곱 검정, 평균 차이 검정 등의 방법 사용
예시
- 성별(범주형) ↔ 점수(수치형): 상관 계산 불가
- 공부시간(수치형) ↔ 점수(수치형): 상관 분석 가능
| 학생 | 성별 | 공부시간 | 점수 |
|---|
| A | 남 | 1 | 50 |
| B | 여 | 3 | 65 |
| C | 남 | 5 | 80 |
📌 산점도(scatter plot)
정의
특징
- 각 변수의 값(x, y)을 좌표에 점으로 표시
- 관계 파악
- 우상향(↗): 양의 상관(하나의 변수가 커질수록 다른 변수도 커짐)
- 우하향(↘): 음의 상관(하나의 변수가 커질수록 다른 변수는 작아짐)
- 무질서: 약한 상관
- 원인/결과를 보여주지 않음(함께 움직이는 경향만 보여줌)
예시
- 양의 상관: 공부시간이 늘수록 시험점수 증가
- 음의 상관: 나이가 들수록 게임시간 감소
- 관계 없음: 주민번호와 시험점수는 아무런 관계가 없음

중요성
- 상관계수(r)만 보고 판단하면 위험
- 숫자는 쉽게 왜곡되어 그래프로 직관적인 확인이 필요
💡 숫자의 왜곡
수치형 데이터의 대표값(평균)은 이상치에 민감하기에 쉽게 왜곡됨
📌 상관계수
정의
- 산점도에서 점들이 직선에 얼마나 가까운지를 수치화한 것
특징
- 범위:
-1 ~ +1
- 방향과 강도를 함께 보여줌
- 산점도의 패턴을 하나의 숫자로 요약
- 데이터가 많을수록 산점도만으로 해석하기 어려움
- 사람마다 그래프 해석이 주관적일 수 있으므로 숫자를 통해 객관성을 확보
한계점
- 상관계수는 두 변수 간 관계를 보여주지만 인과관계나 영향의 크기를 알 수 없음
- 예: 광고비 증가와 매출 증가의 관계는 알 수 있지만, 광고비 100만 원 증가 시 매출 증가분은 알 수 없음
- 예: 공부 시간 1시간 증가와 점수 상승의 관계는 알 수 있지만, 점수가 얼마나 올라가는지는 알 수 없음
예시
- r = 0.95
- r = -0.81
- r = 0.04

📌 회귀
정의
- 변수 간의 영향력을 파악하는 도구
💡 상관 vs 회귀
- 상관: 두 변수(x, y) 간의 관계만 확인하며, 순서(x → y 또는 y → x)는 중요하지 않음
- 회귀: 설명변수(x)와 반응변수(y)를 설정해 방향성을 가정하며, x의 변화가 y에 미치는 영향을 분석 (x→y 순서 중요)
➡️ 회귀는 한 변수(x)가 다른 변수(y)에 미치는 효과를 분석
예시
- 상관: "공부 시간과 점수가 함께 증가한다."
- 회귀: "공부 시간이 1시간 증가하면 점수가 평균 5점 증가한다."
실무 팁
나쁜 보고 예: "마케팅 광고비와 매출이 관련이 있다."(모호함)
좋은 보고 예: "광고비를 100만 원 늘리면 매출이 평균 ~원 증가한다."(구체적 수치 제시)
📌 피어슨 상관계수(pearson's r)
정의
- 두 연속형 변수 간 선형 관계의 강도와 방향을 측정하는 지표
특징
- 2025년 9월 기준, 가장 널리 사용되는 상관계수
- 범위:
-1 ~ +1
r = +1: 완벽한 양의 선형 상관
r = -1: 완벽한 음의 선형 상관
r = 0: 선형 관계 없음(단, 비선형 관계는 존재할 수 있음)
- 이상치와 결측치에 민감
- 표본 크기가 작으면 r값이 불안정
계산: r = Cov(X, Y) / (σX x σY)
- 분자(공(共)분산): 두 변수가 함께 움직이는 정도
- 분모: 각 변수의 표준편차를 곱한 것
해석
- 일반적 기준 (프로젝트에 따라 조정 가능)
|r| < 0.3: 약한 상관
0.3 ≤ |r| < 0.7: 중간 정도의 상관
|r| ≥ 0.7: 강한 상관
💡 해석 기준
- 분야(프로젝트)에 따라 달라짐
- 사회과학: r = 0.3도 큰 의미를 가짐
- 물리학: r = 0.95 이상이어야 신뢰 가능
📌 이상치의 영향
영향
- r은 평균/분산 기반이기에 이상치 하나에도 크게 흔들림
예시
- 학생들의 공부시간과 점수의 상관계수(r) ≈ 0.99
- 학생 한 명이 백지 제출(0점)하면 상관계수(r) ≈ 0.91로 급격히 급락

🚨 r값만으로 판단하면 잘못 해석할 수 있으므로, 반드시 산점도 그래프를 함께 확인해야 함
📌 비모수 상관계수(spearman)
💡 모수 vs 비모수
- 모수: 데이터 분포의 파라미터(예: 평균, 표준편차)를 뜻하며, 대표적으로 정규분포를 가정
- 비모수: 정규분포를 따르지 않는 데이터에 적합한 방법
정의
- 실제 값 대신 순위(등수)를 이용하여 상관을 측정하는 방법
💡 피어슨 vs 스피어만
피어슨: 데이터의 실제 값을 사용해 두 변수 간 선형 상관관계를 측정
스피어만: 데이터의 실제 값 대신 순위를 사용해 상관관계를 측정
특징
- 실제 값 대신 순위 정보를 사용하므로 이상치에 덜 민감
- 비선형(곡선형) 관계를 잡아낼 수 있음
예시
- 금융 주가처럼 극단값이 많은 경우 사용
- 설문(1~5점 서열 척도) 분석
📌 상관계수와 가설검정
가설검정 이유
- r값만 계산하면, 두 변수의 관계가 우연일 수 있음 → 통계 검정 필요
예시
- r의 95% 신뢰구간 = [-0.1, 0.6] → 0 포함 → 상관 없음일 수도 있음
- r의 95% 신뢰구간 = [0.2, 0.7] → 0 미포함 → 유의한 상관
📌 비선형 관계
💡 피어슨 상관계수는 선형 관계만 측정하므로, r = 0(관계 없음)일때, 비선형(곡선) 관계를 놓칠 수 있음
예시
-
공부시간과 집중력
- 1시간 → 집중력 낮음
- 5시간 → 집중력 최고
- 12시간 → 집중력 하락
➡️ 그래프가 곡선 모양인 관계에서는 r ≈ 0일 수 있음(강한 비선형 관계)

-
광고비와 매출
- 광고비가 일정 수준까지 증가하면 매출도 증가
- 일정 수준을 초과하면 광고 효과가 감소하거나 손해 발생
➡️ 선형 관계만 분석하면 상관이 없어 보일 수 있으나, 실제로는 비선형 관계를 가짐
