회귀분석에 대해

Bean·2024년 3월 2일

Data

목록 보기
12/14
post-thumbnail

회귀분석

용어

  • 회귀란 여러개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 의미한다
  • 독립변수란 결과에 영향을 미치는 원인
  • 종속변수란 다른 변수(독립 변수)에 영향을 받아 그 값이 변하는 변수
    • (예시) 운동을 많이 할수록 몸무게가 어떻게 변하는지(줄거나 늘거나) 결정됨

      독립변수(원인)종속변수(결과)
      운동시간몸무게 변화
  • 선형회귀분 설명변수(독립변수)와 종속변수간의 관계를 일차식으로 모델링하여 분석하는 방법
    • 두 변수 사이의 선형관계를 나타내는 회귀선을 통해 예측값을 계산
  • 비선형회귀분석 설명변수(독립변수)와 종속변수간의 관계를 곡선 또는 다항식으로 모델링하여 분석하는 방법
    • 두 변수 사이의 비선형관계를 나타내는 곡선을 통해 예측값을 계산

목적

  • 회귀분석의 목적은 종속변수에 영향을 주는 독립변수들을 찾고 둘의 관계를 나타내는 함수(혹은 모델)을 찾는 것이다

    독립변수 개수회귀 계수의 결합
    1개: 단일회귀선형: 선형 회귀
    여러개: 다중회귀비선형: 비선형 회귀
  • 선형 회귀가 가장 많이 사용되고, 실제 값과 예측 값의 차이를 최소화하는 직선형 회귀선을 최적화하는 방식이다

    참고하기 좋은 블로그

LinearRegression(선형회귀)

장점

  • 각 변수들의 계수(영향도)를 어느정도 가지고 있는지 설명이 가능하다

다중공선성

  • 독립변수들 간의 상관관계가 높아 데이터분석시 부정적인 영향을 미치는 현상이다
  • 분석 결과인 회귀 계수가 불안정하고 종속 변수에 미치는 영향력을 올바르게 설명하지 못한다
    참고하기 좋은 블로그🔗

Feature Scaling

Parameter, Hyper Prameter

  • 사용자가 직접 설정하면 하이퍼 파라미터, 모델 혹은 데이터에 의해 결정되면 파라미터이다

Parameter

  • 선형 회귀의 계수와 마찬가지로 수많은 데이터가 있고, 그 데이터에 대해 선형 회귀를 했을 때 계수가 결정된다.
  • 사용자가 직접 설정하는 것이 아니라 모델링에 의해 자동으로 결정되는 값이다.

Hyper Parameter

  • 하이퍼 파라미터는 모델링할 때 사용자가 직접 세팅해주는 값이다
  • 모델의 성능이나 과적합에 대한 부분을 잡기위해 조정
  • 머신러닝 모델을 세팅할 때 사용자가 직접 세팅해야 하는 값은 상당히 많다
    참고 🔗
profile
시리즈별로 봐주시길

0개의 댓글