[데이터 전처리] 가설 검정 - 상관 분석

Bpius·2023년 10월 11일
0

데이터 EDA & 전처리

목록 보기
17/46
post-thumbnail

가설 검정

수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정.

  • 수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분.
  • 통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우.
  • 단계 : 영 가설(귀무가설) & 대립 가설 설정 -> 검정 통계량 설정 -> 기각역 설정 -> 검정통계량 계산 -> 의사 결정

영 가설(귀무 가설)과 대립 가설

  • 영 가설 : 특정 데이터가 없으면 '참'으로 추정(ex. 무죄 추정의 원칙)
  • 대립 가설 : 특정 데이터가 없으면 '거짓'으로 추정하며 관심 대상인 가설.

상관 분석

두 '연속형' 변수 간에 어떠한 선형 관계를 가지는지(유의미한 상관성) 확인하기 위한 분석이다.

날짜별 금/은/달러 가격 데이터를 통해 알아보자.

상관 분석 시 산점도 혹은 산점도 메트릭스 그래프를 통해서 좀 더 시각적으로 데이터를 확인할 수 있다.

일자를 오름차순으로 정리한 후 scatter(산점도) 그래프를 통해서 보면 아래와 같다.
하지만 금/은/달러 가격의 범위 차이가 크기에 큰 변화를 보기엔 애매한 점이 있다.
그러면 다음은 산점도 메트릭스를 그려보자.
아래와 같이 금과 은의 값에 '양'의 상관 관계가 있음을 알 수 있다.

피어슨 상관계수 계산

두 변수 모두 연속형 변수일 때 사용하는 상관 계수.

  • 상관 계수가 1에 가까울 수록 '양'의 상관 관계가, -1에 가까울수록 '음'의 상관 관계가 강하며, 0에 가까울수록 상관 관계는 약함.
  • p-value 0.05 미만이면 유의한 상관성이 있음.

위의 금/은/달러 데이터에 대한 상관 계수는 다음과 같다.

  • 금과 은은 0.97로 1에 매우 가까운 '양'의 확실한 상관 관계가 있음을 확인할 수 있다.
  • 금과 달러, 은과 달러는 '음'의 상관 관계가 조금 있음을 알 수 있다.
  • p-value는 모두 0.05 미만으로 유의한 상관성이 있음을 나타낸다.

tip : itertools 활용

  • columns이 3개 이상 많을 경우 itertools 를 활용.
  • pearsonr()의 result[0]은 상관 계수를 result[1]은 p-value를 나타내는 것을 활용.

스피어만 상관계수 계산

두 변수의 '순위'(데이터 값의 크기 혹은 순위) 사이에 단조 관련성을 측정하는 상관 계수.

  • p-value 0.05 미만이면 유의한 상관성이 있음.

금/은/달러 데이터를 통해 살펴보면 아래와 같다.
피어슨 상관 계수에 비해서 금과 달러, 은과 달러의 상관 계수가 낮은 것으로 보아 순위에 대한 상관성은 낮다고 볼 수 있다.
또한 p-value도 피어슨 상관 계수에 비해서 유의한 상관성이 낮다는 것을 확인할 수 있다.

상관 행렬

데이터의 feature 또는 columns 간 상관 계수를 나타내는 행렬

python 내장 함수인 corr()을 통해서도 확인할 수 있다.

피어슨:

스피어만:

profile
데이터 굽는 타자기

0개의 댓글