가설 검정
수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정.
영 가설(귀무 가설)과 대립 가설
두 '연속형' 변수 간에 어떠한 선형 관계를 가지는지(유의미한 상관성) 확인하기 위한 분석이다.
날짜별 금/은/달러 가격 데이터를 통해 알아보자.
상관 분석 시 산점도 혹은 산점도 메트릭스 그래프를 통해서 좀 더 시각적으로 데이터를 확인할 수 있다.
일자를 오름차순으로 정리한 후 scatter(산점도) 그래프를 통해서 보면 아래와 같다.
하지만 금/은/달러 가격의 범위 차이가 크기에 큰 변화를 보기엔 애매한 점이 있다.
그러면 다음은 산점도 메트릭스를 그려보자.
아래와 같이 금과 은의 값에 '양'의 상관 관계가 있음을 알 수 있다.
피어슨 상관계수 계산
두 변수 모두 연속형 변수일 때 사용하는 상관 계수.
위의 금/은/달러 데이터에 대한 상관 계수는 다음과 같다.
스피어만 상관계수 계산
두 변수의 '순위'(데이터 값의 크기 혹은 순위) 사이에 단조 관련성을 측정하는 상관 계수.
금/은/달러 데이터를 통해 살펴보면 아래와 같다.
피어슨 상관 계수에 비해서 금과 달러, 은과 달러의 상관 계수가 낮은 것으로 보아 순위에 대한 상관성은 낮다고 볼 수 있다.
또한 p-value도 피어슨 상관 계수에 비해서 유의한 상관성이 낮다는 것을 확인할 수 있다.
상관 행렬
데이터의 feature 또는 columns 간 상관 계수를 나타내는 행렬
python 내장 함수인 corr()을 통해서도 확인할 수 있다.
피어슨:
스피어만: