[기초 통계] 공분산과 상관계수 이해하기

Hyunjun Kim·2026년 1월 29일

correlation covariance 공분산 상관계수

통계학기초

목록 보기

20/24

공분산(Covariance)과 상관계수(Correlation) 이해하기

데이터 분석에서 두 변수 간 관계를 이해할 때 공분산과 상관계수는 가장 기본적이면서도 중요한 지표이다. 이 글에서는 두 지표의 정의, 계산 방법, 차이점과 직관적 의미를 정리한다.

1. 공분산(Covariance)

정의

공분산은 두 변수가 같은 방향으로 움직이는지, 반대 방향으로 움직이는지를 나타내는 지표이다.
두 변수가 함께 증가하면 양수, 한쪽이 증가할 때 다른 쪽이 감소하면 음수를 가진다.

계산식은 다음과 같다.

$\mathrm{Cov}(X,Y) = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$

$x_i, y_i$ : 각 관측값
$\bar{x}, \bar{y}$ : 각 변수의 평균

해석

$\mathrm{Cov}(X,Y) > 0$ : 두 변수가 같은 방향으로 움직임
$\mathrm{Cov}(X,Y) < 0$ : 두 변수가 반대 방향으로 움직임
$\mathrm{Cov}(X,Y) = 0$ : 선형 관계가 거의 없음

한계

공분산은 값의 크기가 단위와 스케일에 따라 달라지므로, 강도를 직관적으로 비교하기 어렵다.
예를 들어 X가 원 단위, Y가 킬로그램 단위라면 공분산의 절댓값만으로 관계 강도를 해석할 수 없다.

2. 상관계수(Correlation)

정의

상관계수는 공분산을 각 변수의 표준편차로 나누어 정규화한 값으로, 방향뿐 아니라 강도까지 직관적으로 파악할 수 있다.

$\rho_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}$

$\sigma_X = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}$
$\sigma_Y = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \bar{y})^2}$

특징

단위 영향을 제거하여 서로 다른 변수 간 비교 가능
값의 범위가 -1에서 1로 제한됨
±1은 완전한 선형 관계를 의미한다.
- ρ = 1 → X가 증가할 때 Y가 정확히 같은 비율로 증가
- ρ = -1 → X가 증가할 때 Y가 정확히 같은 비율로 감소

3. 상관계수가 -1~1 사이인 이유 (Cauchy-Schwarz 부등식)

상관계수가 항상 -1에서 1 사이 값을 가지는 것은 Cauchy-Schwarz 부등식 덕분이다.

Cauchy-Schwarz 부등식은 다음과 같다.

$\left|\sum_i a_i b_i\right| \le \sqrt{\sum_i a_i^2} \cdot \sqrt{\sum_i b_i^2}$

이를 공분산 계산식에 적용하면, $a_i = x_i - \bar{x}$ , $b_i = y_i - \bar{y}$ 라고 할 때,

$|\mathrm{Cov}(X,Y)| = \left|\frac{1}{n}\sum_i (x_i - \bar{x})(y_i - \bar{y})\right| \le \frac{1}{n} \sqrt{\sum_i (x_i - \bar{x})^2} \cdot \sqrt{\sum_i (y_i - \bar{y})^2} = \sigma_X \sigma_Y$

따라서,

$|\rho_{X,Y}| = \left|\frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}\right| \le 1$

즉, 공분산을 두 변수의 표준편차 곱으로 나누면, 단위가 제거되고 값의 절댓값이 1을 넘지 않도록 정규화된다.
±1은 완벽한 선형 관계, 0은 선형 관계가 거의 없음을 의미한다.

직관적으로 이해하면, 상관계수는 공분산의 방향 정보를 유지하면서도, 강도를 단위 독립적으로 비교할 수 있는 지표이다.

4. 공분산과 상관계수 비교

구분	공분산(Covariance)	상관계수(Correlation)
목적	방향성 확인	방향성과 강도 확인
값 범위	제한 없음	-1 ~ 1
단위 의존성	있음	없음 (정규화됨)
해석 용이성	낮음	높음
실무 활용	공분산 행렬, PCA 등	EDA, 변수 관계 분석, 리포트