[기초통계] CH 2. 상관관계 & 회귀분석

이진호·2024년 10월 22일
0

상관분석이란?

  • 두 연속형 변수 간의 선형적 관계를 분석하는 기법
  • 선형적인 관계 정도를 나타내기 위해 상관계수 사용
  • 예를 들어, A변수가 증가함에 따라 B변수가 증가 or 감소되는지 분석하는 것

(+)일 수록 강한 상관관계인 게 아니라!!!
절대값일 수록 강한 상관관계를 가짐!!!

피어슨 상관계수

  • 두 변수의 선형 관계를 측정
  • 값을 -1에서 1사이로 반환, 1은 완벽한 양의 선형관계, -1은 완벽한 음의 선형관계

상관계수를 p라고 했을 때, 선형관계를 보여주는 예시들

아래 그림에서 볼 수 있듯, 절대값이 높을수록 선 형태를 띔. 0인 경우에는 아예 비선형인 형태를 띔.


회귀 분석

회귀 분석에는 단순선형회귀(X와 Y가 각각 1개임)와 다중선형회귀(X가 여러개임)가 있음

선형 회귀(Linear Regression)란?

  • 데이터를 가장 잘 설명할 수 있는 선을 찾는 분석 방법
  • b1(회귀 계수)와 b0로 데이터의 원인과 결과 간의 선형 관계를 설명함

목표:

  • 회귀 문제의 목표는 독립 변수(X)와 종속 변수(Y) 간의 관계를 모델링하여, 주어진 독립 변수에 대한 종속 변수의 값을 예측하는 것

원리:

  • 선형 회귀는 독립 변수<->종속 변수 간의 선형 방정식을 찾아내는 방법으로,
  • 주어진 데이터를 가장 잘 설명하는 최적의 회귀 계수를 찾고, 이를 통해 새로운 독립 변수 값에 대한 종속 변수 값을 예측할 수 있음
  • 즉, X와 Y간의 선형 방정식을 가장 잘 대표하는 회귀 계수를 찾고, 이 회귀 계수로 다른 독립 변수의 결과도 예측 가능하다는 말

평가 지표:

  • MSE(평균 제곱 오차):
    예측값과 실제값의 차이를 제곱하여 평균한 값 (작을 수록 정확함)
  • R^2(R-squared):
    종속 변수의 변동성 중, 모델이 설명할 수 있는 변동성의 비율 (1에 가까울 수록 정확함)
    값이 0.25정도여도 유의미하다고 판단하며, 현업에서도 0.3 이상인 경우를 찾기 힘들다고 함
  • MAPE(펑균 절대 비율 오차):
    예측값이 실제값에 비해 얼마나 차이가 나는지를 %로 표현

대표 알고리즘:
선형 회귀, 다항 회귀, 릿지 회귀, 라쏘 회귀, 엘라스틱넷 ...


🔵 흥미로웠던 점:
'선형 회귀 분석' 이라는 단어를 보기만 했을 때는 무슨 의미인지 확 와닿지 않았는데, 그림과 함께 시각적으로 학습하니 일단 무슨 개념인지 단번에 이해할 수 있었다!

🔵 다음 학습 계획:
머신러닝의 기초에 대해 배울 예정입니다.

0개의 댓글