[통계] 통계학 기초 5주차 (1) 피어슨 상관계수

·2025년 1월 10일

통계

목록 보기
25/34

피어슨 상관계수

  • 두 연속형 변수 간의 선형 관계를 측정하는 지표
  • -1에서 1 사이의 값을 가지며
  • 1은 완전한 양의 선형 관계
  • 1은 완전한 음의 선형 관계
  • 0은 선형 관계가 없음

  • 가장 왼쪽 그래프가 피어슨 상관계수 그래프!
  • X와 Y의 선형 관계를 보여줌
  • 그래프에서 점들이 직선적으로 퍼져있으며, 상관계수는 0.99로 매우 강력한 양의 선형 관계.

언제 사용할까?

  • 선형적인 관계가 예상될 때
  • 아래와 같은 비선형 관계에서는 사용할 수 없음

실습

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import pearsonr

# 예시 데이터 생성
np.random.seed(0)
study_hours = np.random.rand(100) * 10
exam_scores = 3 * study_hours + np.random.randn(100) * 5

# 데이터프레임 생성
df = pd.DataFrame({'Study Hours': study_hours, 'Exam Scores': exam_scores})

# 피어슨 상관계수 계산
pearson_corr, _ = pearsonr(df['Study Hours'], df['Exam Scores'])
print(f"피어슨 상관계수: {pearson_corr}")

# 상관관계 히트맵 시각화
sns.heatmap(df.corr(), annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('pearson coefficient heatmap')
plt.show()

피어슨 상관계수: 0.8642702080660165

profile
To Dare is To Do

0개의 댓글