데이터 분석 - 상관 분석

hisungmi·2024년 8월 26일
0

KT Aivle

목록 보기
19/23
post-thumbnail

상관관계

  • 상관관계는 변수 간의 상호 관련성을 의미하며 관계성의 정도는 통계적 또는 시각적인 방법으로 파악 가능
  • 두 변수 간의 함께 변화하는 경향을 객관적으로 측정할 수 있는 척도
피어슨 상관계수스피어맨 상관계수
선형관계의 강도를 측정비선형 순위 상관관계를 측정

피어슨 상관계수

  • 두 변수 간 선형 관계의 정도를 객관적으로 측정할 수 있는 방법

비선형 상관계수

  • 변수 간 관계가 선형적이지 않다면 비선형 상관계수 또는 데이터 변환을 고려


삼점도 (Scatter Plot)

산점도를 이용하면 상관관계를 쉽게 파악 가능
  • 두 연속형 데이터의 관계 파악에 용이
  • 특정 관계를 갖고 있는 데이터는 한 눈에 파악 가능
  • 극단치 혹인 이상치 파악 가능
  • 한 변수의 값이 증가할 때, 다른 변수의 값도 같이 증가한다면 두 변수는 양의 상관관계
  • 한 변수는 증가하고 다른 변수는 감소 한다면, 두 변수는 음의 상관관계

상관분석

  • 측정된 두 변수 간의 선형관계가 있는지 탐색 및 확인하는 분석 방법

상관관계 vs 인과관계

  • 상관관계가 있다고 인과관계가 있는 것은 아님
  • 인과관계가 있으면 상관관계는 있음

상관분석 Process

Data 특성 파악 & 가설설정
종속변수/독립변수 : 모두 '등비'여야함
귀무가설: 변수 간 선형관계 x
대립가설: 변수 간 선형관계 o
산점도를 이용한 시각화 및 가정 검토
선형관계가 아니면 분석의 의미를 찾기 힘듦
변수별 정규성, 등분산성 체크
목적에 맞는 분석 수행
Step 1~2 결과를 토대로 최종 분석 방법 선택
결과 해석 및 최정 결론 도출P값 기반 상관관계 변수 선택
관계의 정도 확인

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from scipy import stats

from sklearn.datasets import load_boston #사용할 예제 데이터

정규성 확인
이상치 확인

profile
난 성미다.

0개의 댓글