[기초 통계] 공분산과 상관계수 이해하기

Hyunjun Kim·2026년 1월 29일

통계학기초

목록 보기
20/24

공분산(Covariance)과 상관계수(Correlation) 이해하기

데이터 분석에서 두 변수 간 관계를 이해할 때 공분산과 상관계수는 가장 기본적이면서도 중요한 지표이다. 이 글에서는 두 지표의 정의, 계산 방법, 차이점과 직관적 의미를 정리한다.


1. 공분산(Covariance)

정의

공분산은 두 변수가 같은 방향으로 움직이는지, 반대 방향으로 움직이는지를 나타내는 지표이다.
두 변수가 함께 증가하면 양수, 한쪽이 증가할 때 다른 쪽이 감소하면 음수를 가진다.

계산식은 다음과 같다.

Cov(X,Y)=1ni=1n(xixˉ)(yiyˉ)\mathrm{Cov}(X,Y) = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})

  • xi,yix_i, y_i : 각 관측값
  • xˉ,yˉ\bar{x}, \bar{y} : 각 변수의 평균

해석

  • Cov(X,Y)>0\mathrm{Cov}(X,Y) > 0 : 두 변수가 같은 방향으로 움직임
  • Cov(X,Y)<0\mathrm{Cov}(X,Y) < 0 : 두 변수가 반대 방향으로 움직임
  • Cov(X,Y)=0\mathrm{Cov}(X,Y) = 0 : 선형 관계가 거의 없음

한계

공분산은 값의 크기가 단위와 스케일에 따라 달라지므로, 강도를 직관적으로 비교하기 어렵다.
예를 들어 X가 원 단위, Y가 킬로그램 단위라면 공분산의 절댓값만으로 관계 강도를 해석할 수 없다.


2. 상관계수(Correlation)

정의

상관계수는 공분산을 각 변수의 표준편차로 나누어 정규화한 값으로, 방향뿐 아니라 강도까지 직관적으로 파악할 수 있다.

ρX,Y=Cov(X,Y)σXσY\rho_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}

  • σX=1ni=1n(xixˉ)2\sigma_X = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}
  • σY=1ni=1n(yiyˉ)2\sigma_Y = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \bar{y})^2}

특징

  • 단위 영향을 제거하여 서로 다른 변수 간 비교 가능

  • 값의 범위가 -1에서 1로 제한됨

  • ±1은 완전한 선형 관계를 의미한다.

    • ρ = 1 → X가 증가할 때 Y가 정확히 같은 비율로 증가
    • ρ = -1 → X가 증가할 때 Y가 정확히 같은 비율로 감소

3. 상관계수가 -1~1 사이인 이유 (Cauchy-Schwarz 부등식)

상관계수가 항상 -1에서 1 사이 값을 가지는 것은 Cauchy-Schwarz 부등식 덕분이다.

Cauchy-Schwarz 부등식은 다음과 같다.

iaibiiai2ibi2\left|\sum_i a_i b_i\right| \le \sqrt{\sum_i a_i^2} \cdot \sqrt{\sum_i b_i^2}

이를 공분산 계산식에 적용하면, ai=xixˉa_i = x_i - \bar{x}, bi=yiyˉb_i = y_i - \bar{y}라고 할 때,

Cov(X,Y)=1ni(xixˉ)(yiyˉ)1ni(xixˉ)2i(yiyˉ)2=σXσY|\mathrm{Cov}(X,Y)| = \left|\frac{1}{n}\sum_i (x_i - \bar{x})(y_i - \bar{y})\right| \le \frac{1}{n} \sqrt{\sum_i (x_i - \bar{x})^2} \cdot \sqrt{\sum_i (y_i - \bar{y})^2} = \sigma_X \sigma_Y

따라서,

ρX,Y=Cov(X,Y)σXσY1|\rho_{X,Y}| = \left|\frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}\right| \le 1

  • 즉, 공분산을 두 변수의 표준편차 곱으로 나누면, 단위가 제거되고 값의 절댓값이 1을 넘지 않도록 정규화된다.
  • ±1은 완벽한 선형 관계, 0은 선형 관계가 거의 없음을 의미한다.

직관적으로 이해하면, 상관계수는 공분산의 방향 정보를 유지하면서도, 강도를 단위 독립적으로 비교할 수 있는 지표이다.


4. 공분산과 상관계수 비교

구분공분산(Covariance)상관계수(Correlation)
목적방향성 확인방향성과 강도 확인
값 범위제한 없음-1 ~ 1
단위 의존성있음없음 (정규화됨)
해석 용이성낮음높음
실무 활용공분산 행렬, PCA 등EDA, 변수 관계 분석, 리포트
  • 공분산은 두 변수의 방향을 확인할 때 유용하지만, 값의 크기로 관계 강도를 해석하기 어렵다.
  • 상관계수는 방향과 강도를 동시에 확인할 수 있어 대부분의 데이터 분석에서 직관적으로 사용된다.

5. 정리

  1. 공분산은 두 변수의 방향을 보여주는 지표로, 값의 크기는 단위와 스케일에 따라 달라 해석이 어렵다.
  2. 상관계수는 공분산을 표준편차로 나눠 정규화한 값으로, 단위와 상관없이 방향과 강도를 동시에 파악 가능하다.
  3. 상관계수의 절댓값이 1을 넘지 않는 것은 Cauchy-Schwarz 부등식 덕분이다.
  4. 실무에서는 EDA, 리포트, 변수 관계 분석에는 상관계수를, 통계적 계산이나 PCA 등 내부 행렬 연산에는 공분산을 활용한다.
profile
Data Analytics Engineer 가 되

0개의 댓글