공분산(Covariance)
: 두 변수간의 선형 연관성 (정 + 혹은 부 - 의 연관성) → 두 변수간의 관계의 “방향” 알 수 있음
→ 두 변수 X, Y가 어떤 패턴을 보여주는가를 나타내줌
상관계수(Correlation Coefficient)
: 공분산을 두 변수 X, Y의 각 표준편차로 나누면 모상관계수를 구할 수 있음
1) 모상관계수 ? 상수
2) 표본상관계수 ? 변수임 - ‘ r ‘로 표시
: 표본공분산을 각각의 표본표준편차로 나누어주어 표준화한값 * proposed by Pearson ⇒ 피어슨의 표본상관계수
num_intFlight | noTxn | |
---|---|---|
num_intFlight | 1 | |
noTxn | -0.44 | 1 |
상관분석(Correlation Analysis)
: 변수들 간의 선형성의 강도에 대한 통계적 분석
→ 함수관계 파악이 목적이 아님
↔ (다른 변수의 값 예측? 구체적인 함수 관계 파악이 목적?) 회귀분석!
1) 단순상관분석(Simple Correlation Analysis)
→ 두 개의 변수가 어느정도 강한 관계에 있는가 측정 through 상관계수
2) 다중상관분석(Multiple Correlation Analysis)
→ 다른 변수들과의 관계를 고정하고 두 변수만의 관계에 대한 강도를 나타내는 것! (=평상관관계분석)
상관분석 프로세스
0) 기본 가정
1) 데이터 특성 파악, 가설 설정
- 독립, 종속변수 모두 ‘등비’여야함
- 귀무가설 : 변수간 선형관계 X * r = 0
- 대립가설 : 변수간 선형관계 O
- 자유도는 n-2인 t 분포를 따름
2) 산점도를 이용한 시각화 및 가정 검토
- 선형관계가 아니면 분석의 의미를 찾기 힘듦
- 변수별 정규성, 등분산성 체크
3) 목적에 맞는 분석 수행
- 단계 1~2 이후, 알맞는 방법 선택
4) 결과 해석 및 최종 결과 도출
- P값 기반 상관관계 변수 선택
- 관계의 정도 확인
5) 한계