통계학 기초 04 회귀

Data_Student·2024년 11월 12일
0

통계학 기초

목록 보기
4/10

통계학 기초 04 회귀


4.1 단순선형회귀

  • 하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링 하는 방법
  • 회귀식
    • Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기
  • 특징
    • 독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측
    • 데이터가 직선적 경향을 따를 때 사용
    • 간단하고 해석이 용이
    • 데이터가 선형적이지 않을 경우 부적합

4.2 다중선형회귀

  • 두 개 이상의 변수에 의한 결과를 예측
    두 개 이상의 독립 변수와 하나의 종속 변수 간의 관계를 모델링
  • 특징
    • 여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측
    • 종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용
    • 여러 변수의 영향을 동시에 분석
    • 다중공선성 문제가 발생할 수 있다.
  • 다중공선성
    • 회귀분석에서 독립 변수들 간에 높은 상관관계가 있는 경우
    • 회귀 분석 모델의 성능과 해석에 여러 가지 문제를 발생
      • 독립 변수들이 서로 강하게 상관되어 있으면, 각 변수의 개별적인 효과를 분리해내기 어려워져 회귀의 해석이 어려워짐
      • 다중공선성으로 인해 실제 중요한 변수가 통계적으로 유의하지 않게 나타날 수도 있음
    • 진단 방법
      • 가장 간단한 방법으로 상관계수를 계산하여 상관계수가 높은 변수들이 있는지 확인(약 0.7)
      • 더 정확한 방법으로는 분산 팽창 계수(VIF)를 계산하여 VIF값이 10이 높은지 확인하는 방법
    • 해결 방법
      • 높은 계수를 가진 변수 중 하나를 제거하는 것
      • 주성분 분석(PCA)과 같은 변수들을 효과적으로 줄이는 차원 분석 방법을 적용하여 해결

4.3 범주형 변수

  • 수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있지 않는 변수
  • 순서가 있는 범주형 변수
    • 옷의 사이즈, 수능 등급 등과 같이 범주형 변수라도 순서가 있는 변수가 해당
    • 이런 경우 각 문자를 임의의 숫자로 변환
  • 순서가 없는 범주형 변수
    • 성별, 지역과 같이 순서가 없는 변수에 해당
    • 2개 밖에 없는 경우 임의의 숫자로 변환해도 문제가 없음
    • 3개 이상인 경우에는 무조건 원-핫 인코딩(하나만 1이고 나머지는 0인 벡터) 변환을 해주어야 한다.
  • 더미 함수(get_dummies)가 나온 이유..! 범주형 변수를 임의의 숫자로 표현하기 위함
    범주형 변수를 찾고 더미 변수로 변환한 후 회귀 분석 수행
  • 성별, 근무 경력과 연봉 간의 관계
  • 성별과 근무 경력이라는 요인변수 중 성별이 범주형 요인변수에 해당

4.4 다항회귀, 스플라인 회귀

  • 데이터가 복잡하고 비선형적 회귀
  • 다항회귀
    • 독립 변수와 종속 변수 간의 관계가 선형이 아닐 때 사용, 독립 변수의 다항식을 사용하여 종속 변수를 예측
    • 곡선적인 성향을 따를 때
    • 비선형 관계를 모델링
    • 고차 다항식의 경우 과적합(overfitting) 위험
  • 스플라인 회귀
    • 독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링
    • 구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡성을 생성
    • 데이터가 국부적으로 다른 패턴을보일 때 사용
    • 복잡한 비선형 관계를 유연하게 모델링
    • 적절함 매듭점(knots)의 선택이 중요

0개의 댓글