공분산(Covariance)과 상관계수(Correlation) 이해하기
데이터 분석에서 두 변수 간 관계를 이해할 때 공분산과 상관계수는 가장 기본적이면서도 중요한 지표이다. 이 글에서는 두 지표의 정의, 계산 방법, 차이점과 직관적 의미를 정리한다.
1. 공분산(Covariance)
정의
공분산은 두 변수가 같은 방향으로 움직이는지, 반대 방향으로 움직이는지를 나타내는 지표이다.
두 변수가 함께 증가하면 양수, 한쪽이 증가할 때 다른 쪽이 감소하면 음수를 가진다.
계산식은 다음과 같다.
Cov(X,Y)=n1∑i=1n(xi−xˉ)(yi−yˉ)
- xi,yi : 각 관측값
- xˉ,yˉ : 각 변수의 평균
해석
- Cov(X,Y)>0 : 두 변수가 같은 방향으로 움직임
- Cov(X,Y)<0 : 두 변수가 반대 방향으로 움직임
- Cov(X,Y)=0 : 선형 관계가 거의 없음
한계
공분산은 값의 크기가 단위와 스케일에 따라 달라지므로, 강도를 직관적으로 비교하기 어렵다.
예를 들어 X가 원 단위, Y가 킬로그램 단위라면 공분산의 절댓값만으로 관계 강도를 해석할 수 없다.
2. 상관계수(Correlation)
정의
상관계수는 공분산을 각 변수의 표준편차로 나누어 정규화한 값으로, 방향뿐 아니라 강도까지 직관적으로 파악할 수 있다.
ρX,Y=σXσYCov(X,Y)
- σX=n1∑i=1n(xi−xˉ)2
- σY=n1∑i=1n(yi−yˉ)2
특징
3. 상관계수가 -1~1 사이인 이유 (Cauchy-Schwarz 부등식)
상관계수가 항상 -1에서 1 사이 값을 가지는 것은 Cauchy-Schwarz 부등식 덕분이다.
Cauchy-Schwarz 부등식은 다음과 같다.
∣∑iaibi∣≤∑iai2⋅∑ibi2
이를 공분산 계산식에 적용하면, ai=xi−xˉ, bi=yi−yˉ라고 할 때,
∣Cov(X,Y)∣=∣∣∣n1∑i(xi−xˉ)(yi−yˉ)∣∣∣≤n1∑i(xi−xˉ)2⋅∑i(yi−yˉ)2=σXσY
따라서,
∣ρX,Y∣=∣∣∣∣σXσYCov(X,Y)∣∣∣∣≤1
- 즉, 공분산을 두 변수의 표준편차 곱으로 나누면, 단위가 제거되고 값의 절댓값이 1을 넘지 않도록 정규화된다.
- ±1은 완벽한 선형 관계, 0은 선형 관계가 거의 없음을 의미한다.
직관적으로 이해하면, 상관계수는 공분산의 방향 정보를 유지하면서도, 강도를 단위 독립적으로 비교할 수 있는 지표이다.
4. 공분산과 상관계수 비교
| 구분 | 공분산(Covariance) | 상관계수(Correlation) |
|---|
| 목적 | 방향성 확인 | 방향성과 강도 확인 |
| 값 범위 | 제한 없음 | -1 ~ 1 |
| 단위 의존성 | 있음 | 없음 (정규화됨) |
| 해석 용이성 | 낮음 | 높음 |
| 실무 활용 | 공분산 행렬, PCA 등 | EDA, 변수 관계 분석, 리포트 |
- 공분산은 두 변수의 방향을 확인할 때 유용하지만, 값의 크기로 관계 강도를 해석하기 어렵다.
- 상관계수는 방향과 강도를 동시에 확인할 수 있어 대부분의 데이터 분석에서 직관적으로 사용된다.
5. 정리
- 공분산은 두 변수의 방향을 보여주는 지표로, 값의 크기는 단위와 스케일에 따라 달라 해석이 어렵다.
- 상관계수는 공분산을 표준편차로 나눠 정규화한 값으로, 단위와 상관없이 방향과 강도를 동시에 파악 가능하다.
- 상관계수의 절댓값이 1을 넘지 않는 것은 Cauchy-Schwarz 부등식 덕분이다.
- 실무에서는 EDA, 리포트, 변수 관계 분석에는 상관계수를, 통계적 계산이나 PCA 등 내부 행렬 연산에는 공분산을 활용한다.