머신러닝 알고리즘 | 예측 | 선형 회귀분석, 다중 선형 회귀분석, 규제화 회귀분석 | Linear Regression, Ridge, LASSO, ElasticNet

midoi·2023년 8월 1일
0

빅데이터 분석

목록 보기
7/7
  • 모델링이란, 대용량의 데이터로부터 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 변수들 간의 관련성을 찾아내어 모형화함으로써 유용한 지식을 추출하는 일련의 과정을 말한다.

  • 모델링의 종류:
    Data 모델링: 지도학습, 비지도학습
    회귀: 주어진 데이터에 근거하여 모델을 만들고 이 모델을 이용하여 새로운 케이스에 대하여 예측 (강도, 온도)
    분류: 일련의 범주가 사전에 분류되어있고 특정 Case가 어디에 속하는지를 결정 (양품/불량, 스팸/정상)
    군집: 여러 속성의 데이터를 비교하여 유사한 속성을 갖는 데이터를 그룹화시키는것 (고객 세분화)
    연관: 한 패턴의 출현이 다른 패턴의 출현을 암시하는 특성이나 항목간의 관계를 파악 (장바구니 분석)

1. 회귀분석

정의 : 연속형 목표변수와 다양한 설명변수 관계를 모형화하여 목표변수를 분석, 예측
목적 : 목표변수에 영향을 미치는 설명변수를 찾고 목표변수의 값을 예측하자
ex) 광고 지출액에 따른 매출액, 담배 판매량에 따른 폐암 환자수

기본가정: 선형성, 정규성, 등분산성, 독립성

특징 : 표준화가 필요하다. 기본 가정이 요구된다.

종류:
Linear Regression | 연속형 목표변수, 값 예측, 선형방정식 함수표현, 최소자승법, f검정, t검정
Logistic Regression | 범주형 목표변수, 분류, 사후확률예측, 연결함수를 이용한 관계표현, 최대우도법, 카이제곱검정

단순선형회귀 | 설명변수 1개, 1차항 y=A+Bx
다중선형회귀 | 설명변수 2개이상, 1차항 y= A+ Bx + Cx + DX...
비선형 회귀 | 설명변수 2개이상, 1차항 및 다차항 y= A+ Bx + Cx2 + Dx3 ...
다중로지스틱회귀 | 설명변수 2개이상, 연결함수

2. 단순선형 회귀분석

설명변수가 1개이고 목표변수와 선형관계를 갖는 회귀모델
y = b0 + b1x + 앱실론

  • 회귀계수는 최소자승법을 활용하여 추정한다.
  • 잔차항은 정규분포를 따른다.
  • 잔차항의 평균은 0이다.
  • 잔차항은 등분산이다.
  • 잔차항은 서로 독립이다.
  • 경향성 확인 : 산점도, 상관분석
  • Ordinary Least Squares에 의한 회귀계수 추정 ==> 잔차의 제곱의 합이 최소가 되도록 함
  • SST = SSR(설명변수에 의해 설명되는 변동) + SSE(오차로 인해 설명되지 않는 변동)
  • 회귀계수 계산 : 최소자승법을 활용하여 기울기와 Y 절편 계산
  • 추정된 회귀계수와 표준오차를 이용한 회귀계수 유의성 검정 (T-Test)
  • 귀무가설: 기울기없음, 대립가설: 기울기있음
  • 모델 적합성 확인 : F 검정 ==> 회귀계수가 0이 아니면 모델은 적합하다.
  • 결정계수 R2 : 전체 변동 중에서 모델에 의해 설명되는 변동의 크기, 0~1값

3. 다중선형 회귀분석

목표변수와 2개이상의 설명변수와의 선형관계를 모델링한다.
회귀계수는 최소자승법 (Least Squares Method)를 활용하여 도출한다.
설명변수 간의 다중공선성을 확인해야한다.

  • 분석 절차
    1) 경향성 확인 : 변수 간의 상환성 확인(산점도, 상관관계), 주요 변수 이해 및 산정
    2) 모델링 : 최소자승법으로 회귀계수 계산, 설명변수 간 다중 공선성 확인, 회귀계수 유의성 검정, 목표변수에 영향을 미치는 설명변수 확인
    3) 회귀모델의 적합성 확인 ( 표준오차, 결정계수 ), 모델유형의 적합성을 나타내는 ANOVA 분석결과 확인
    4) 오차의 기본 가정사항 확인 (정규성, 등분산성, 독립성)
    5) 모델 확정
  • 최소자승법으로 회귀계수 산정 : 잔차의 제곱합이 최소가 되는 적합선을 찾는다.

  • 회귀계수 유의성 검정: 귀무가설-기울기0, 대립가설-기울기0아닌게잇음 ====> T-test 검정

  • ANOVA 검정 : 분산분석 F-검정 활용하여 모델 유의성 검정
    가설: 모델에 유의한 회귀계수가 존재하는가? -> 적어도 하나 이상의 회귀계수가 0이아니면 모델은 적합하다.

  • 결정계수 : 다중선형 회귀분석은 수정결정계수 Adjusted R2로 판단한다.

  • 추정의 표준오차 : 잔차들의 표준편차

  • 다중공선성 : 설명변수 간의 선형관계가 높아 발생하는 문제
    진단 : 산점도 또는 상관계수를 확인한다.
    분산팽창계수(VIF)를 확인한다. 10보다 크면 다중공선성이 존재한다.

  • 변수 선택법
    1) 전진선택법
    2) 후진제거법
    3) 단계적 방법
    4) 모든 가능한 회귀

4. 다중선형 회귀분석 - 규제화

왜? 과대적합을 방지하기 위해서
회귀 모델의 회귀계수가 가질 수 있는 값에 대한 제약조건을 부여하여 모델의 분산을 감소시키고 모델의 일반화 성능을 높이는 기법

  • 평균제곱오차를 최소화하는 최소자승법을 적용하면서 계수에 제약조건을 추가로 적용한다.
  • 변수 선택 - 중요한 변수는 선택하고 중요하지 않은 변수는 제거한다.
  • 계수 축소 - 덜 중요한 변수의 해당 계수 절대값을 낮춘다.

  • 편향 분석 trade -off
    편향 : 예측값의 평균과 실제값의 차이
    분산: 예측값과 예측지 평균과의 차이 제곱


회귀분석 규제화 종류

1. 능형 회귀분석 (Ridge) | L2규제(제곱합), 회귀계수를 가능한 작게 만든다.
2. LASSO 회귀분석 | L1 규제(절대값), 변수를 선택할 수 있다.
3. Elastic Net Regression | L1+L2 규제(둘다)

5. 비선형 회귀분석

목표변수와 설명변수 간의 비선형 관계를 탐색하는 모델로, 선형 회귀분석과 달리 설명변수에 대한 최적의 다차항을 선택하는 기준이 없어 반복적으로 최적의 관계를 찾고 모델을 수정해야 한다.

0개의 댓글

관련 채용 정보