상관 분석

dkdiek·2024년 11월 2일

데이터분석

목록 보기
9/14

상관 분석

연속형 변수(e.g., 키, 몸무게, 나이, 소득 등)로 측정된 두 변수 간의 선형관계를 분석하는 기법.
선형관계는 비례식이 성립되는 관계를 뜻한다.
A가 증가함에 따라 B도 증가 혹은 감소하는지 분석.

상관계수 유형

상관계수란 두 변수 사이의 관계(상관관계)의 정도를 나타내는 수치로, 기술 통계 값의 범위는 -1과 +1 사이이다. 일반적 상관계수는 '피어슨 상관계수'를 의미합니다.
변수가 같은 방향으로 변하면 이들을 양 또는 직접 상관관계라고 하며 두 변수가 반대 방향으로 변하면 간접 또는 음의 상관관계라고 한다.

  • 상관계수는 소문자 r로 표시되며, 상관계수 r은 상관 정도와 방향에 따라 -1 <= r <= 1의 값을 갖는다.
  • 상관계수는 항상 사례당 최소 2개의 데이터 요소가 있는 상황을 반영.
  • 상관계수의 절댓값은 상관관계의 강도를 반영합니다. 즉, -0.7의 상관관계는 +0.6의 상관관계보다 강하다.
  • r(xy)는 변수x와 y의 상관관계를 나타낸다.(e.g., r(키,몸무게) 키가 커지면 대체로 몸무게도 증가를 뜻함.)

상관관계와 인과관계


엑셀 데이터 분석을 이용하여 상관 분석을 했을 때 횟수와 지출액의 상관 계수가 0.9로 강한 직접(양)의 상관관계를 띄고 있음을 확인할 수 있다.
다만, 위 상관관계를 보고 여행 횟수가 늘어나면 관광객의 지출액이 늘어난다라는 인과관계 있다고 말할 수 없다.
상관관계에 있다고 해서 한쪽 변수가 다른쪽 변수의 원인임이 반드시 입증되지는 않는다.
대학 졸업 여부와 소득 사이에 상관관계가 존재하고 대학 졸업자가 대체로 소득이 높은 경향을 보인다.
대학을 나와야 소득이 높아진다고 해석하는 것은 오류다. 소득이 높아서 대학에 진학하였을 수도 있고, 대학을 나오지 않아도 높은 소득을 얻을 수 있기 때문이다.

0개의 댓글