
상관관계는 변수 간의 상호 관련성을 의미하며, 관계성을 정도는 통계적 또는 시각적 방법으로 파악 가능하다.
산점도는 2 변수를 가로와 세로축으로 하여 2변수 간의 관계를 점으로 그리는 방법이다.
두 연속성 데이터의 관계 파악에 용이하다.
극단치, 이상치 파악이 가능하다.
한 변수 값이 증가할 때, 다른 변수도 증가하면 양의 상관관계를 가진다고 한다.
한 변수가 증가할 때, 다른 변수는 감소하면 음의 상관관계를 가진다고 표현한다.
산점도는 대략적인 데이터의 구성을 통해 인사이트를 제공한다면, 상관계수는 좀 더 객관적이고, 수치적으로 변수 간의 관계를 나타낸다.
➡️ 두 변수 간의 함께 변화하는 경향을 객관적으로 측정할 수 있는 척도
이러한 상관계수는 2가지 종류가 있다.
2 종류의 상관계수 모두 [-1,1]의 범위를 가지며,
의 의미를 가진다.
산점도로는 관계의 강도를 파악하기는 어렵다. 따라서 pearson 상관계수를 통해 객관화하여 나타낼 수 있다.
그 수식은 다음과 같다.
➡️ 수식을 간단히 설명하면, 분자의 공분산(두 변수의 관계의 양을 표현) 값을 분모의 각 변수의 표준편차(데이터의 흩어짐 정도)로 나누어 표현하는 것이 Pearson 상관계수 이다.
표준 편차와 분포를 사용하므로, 관계의 선형성, 정규성, 등분산성에 대한 가정이 있어야 통계적 의미를 갖춤.
변수가 선형성과 정규성에 문제가 있다면,
와 같은 방안의 고려가 필요하다.
여기서는 대표적인 비선형 상관관계를 나타내는 Spearman 상관계수에 대해 알아본다.
Spearman 상관계수는 순위 파악에 매우 능하며, monotonic(단조) 관계만 보장된다면, 분산과 선형성에 상관없이 사용가능한 상관계수이다.
ex.
X가 증가할 때, Y도 증가하는 경우이나, Y는 기하 급수적으로 증가 (즉, 비선형적이게 증가)하는 case의 경우, Pearson 상관계수보다 SpearMan 상관계수가 더 효율적
Spearman 상관계수는 monotonic(단조) 증가/하락(계속해서 증가만 하거나, 계속해서 하락만 하는 경우)에 관한 비선형관계도 포함하여 변수간의 상관관계를 잘 표현 가능하다는 강점이 있다.
데이터를 변환하면, 비선형 데이터를 선형으로 변형이 가능한 경우가 있다.
각 데이터에 알맞는 선형 변환 방법 혹은 함수를 고려하여, 최대한 선형성을 확보하는 것이 차후 데이터 분석 과정에서 훨씬 유연하고, 유익하게 사용 가능해진다.
상관 분석은 두 변수 간 선형 관계를 개량적으로 분석하는 기법이다.
➡️ 즉, 상관계수를 추정하는 단계가 된다.
ex 피어슨 상관분석의 예
[기본가정]
위의 가정이 충족되지 않는다면, 구해진 통계적 해석은 의미를 가지지 못한다.
상관성이 있다는 것이 인과성이 있음을 나타내지는 않는다.
위와 같은 사례는 Confounding factor의 영향에 의함이다. 위의 예제에서 Confounding factor는 여름이다.
Data 특성 파악 & 가설 설정
산점도를 통한 시각화 및 가정 검토
목적에 맞는 분석 수행
결과 해석 및 최종 결론 도출