공분산, 상관계수, 상관분석

HYERYEON KIM·2023년 7월 5일
0

통계

목록 보기
2/3

공분산(Covariance)

: 두 변수간의 선형 연관성 (정 + 혹은 부 - 의 연관성) → 두 변수간의 관계의 “방향” 알 수 있음

→ 두 변수 X, Y가 어떤 패턴을 보여주는가를 나타내줌

  • 두 변수가 독립이 아니라면? 변수들간 연관성이 존재할 것임
  • 변수들 간 연관성 정도를 측정할 때 여러 방법 중 (양적변수의 경우) ‘공분산’으로 설명할 수 있음
  • 상관계수(Correlation Coefficient)는 공분산으로부터 유도됨
  • 공분산이 크다고 반드시 두 변수간 연관성이 높은것은 아님 → 변수의 측정단위와 범위에 영향을 받기 때문 → 관계의 방향만 알 수 있음
    (→ 이 문제를 해결하기 위해 측정단위에 관계없이 관계의 정도를 비교할 수 있도록 표준화한 것이 상관계수!)

상관계수(Correlation Coefficient)

: 공분산을 두 변수 X, Y의 각 표준편차로 나누면 모상관계수를 구할 수 있음

1) 모상관계수 ? 상수

2) 표본상관계수 ? 변수임 - ‘ r ‘로 표시
: 표본공분산을 각각의 표본표준편차로 나누어주어 표준화한값 * proposed by Pearson ⇒ 피어슨의 표본상관계수

  • 변수간의 관계가 선형적이지 않다면? 스피어맨 상관계수 r
    1) 비선형상관계수 사용
    2) 데이터 변환 (* Log 취해 선형성 확보)
  • 표본상관계수(r)
    : -1 ≤ r ≤ 1
  • 절대값이 클수록 산점도의 띠 폭은 좁아짐 ↔ 절대값이 작을수록 산점도의 띠 폭은 넓어짐 표본상관계수 절대값 0.2 이하 상관관계 거의 없음
    0.2 ~ 0.4 낮은 상관관계
    0.4 ~ 0.6 보통 관계
    0.6 ~ 0.8 높은 상관관계
    0.8 이상 매우 높은 상관관계
  • ex. 선형관계 정도가 -0.44
num_intFlightnoTxn
num_intFlight1
noTxn-0.441
  • 상관계수는 측정척도의 원점과 단위의 변환으로 변경되지 않음 → 측정값들의 단위가 무엇이든 (ex. 초, 인치, 분) 변수들간의 상관관계 값은 항상 일정함
  • 측정값의 단위가 변할 때에도 상관계수 r은 변하지 않음
  • (한계)
    • 수학적인 관계일 뿐! 속성의 관계로 확대 해석 X
    • 상관계수가 낮아도 비선형관계가 있을 수 있음! → 산점도로 확인
    • 자료분석 초기

상관분석(Correlation Analysis)

: 변수들 간의 선형성의 강도에 대한 통계적 분석
→ 함수관계 파악이 목적이 아님
↔ (다른 변수의 값 예측? 구체적인 함수 관계 파악이 목적?) 회귀분석!

1) 단순상관분석(Simple Correlation Analysis)
→ 두 개의 변수가 어느정도 강한 관계에 있는가 측정 through 상관계수

2) 다중상관분석(Multiple Correlation Analysis)

→ 다른 변수들과의 관계를 고정하고 두 변수만의 관계에 대한 강도를 나타내는 것! (=평상관관계분석)

상관분석 프로세스

0) 기본 가정

  • (선형성) 두 변수간의 관계가 선형적임
  • (정규성) 집단별 종속변수는 정규분포를 만족
  • (등분산성) 집단별 종속변수 분포의 분산은 동일

1) 데이터 특성 파악, 가설 설정
- 독립, 종속변수 모두 ‘등비’여야함
- 귀무가설 : 변수간 선형관계 X * r = 0
- 대립가설 : 변수간 선형관계 O
- 자유도는 n-2인 t 분포를 따름

2) 산점도를 이용한 시각화 및 가정 검토
- 선형관계가 아니면 분석의 의미를 찾기 힘듦
- 변수별 정규성, 등분산성 체크

3) 목적에 맞는 분석 수행
- 단계 1~2 이후, 알맞는 방법 선택

4) 결과 해석 및 최종 결과 도출
- P값 기반 상관관계 변수 선택
- 관계의 정도 확인

5) 한계

  • 상관관계가 있다고 인관관계가 있는 것은 아님
  • 인과관계가 있으면 상관관계가 있음

0개의 댓글