DATA SCIENCE (2)

Hyo·2023년 5월 27일
1

DATA SCIENCE

목록 보기
2/6
post-thumbnail

선형회귀(Linear Regression)

: 양적 반응변수를 예측하는 유용한 도구.
Q1) 광고예산과 판매 사이에 상관관계는?
Q2) 광고예산과 판매 사이에 얼마나 강한 상관관계가 있는가?
Q3) 어느 매체가 판매에 기여하는가?
Q4) 판매에 대한 각 매체의 효과를 얼마나 정확하게 추정할 수 있는가?
....

1. 단순선형회귀

: 하나의 설명변수 x에 기초하여 양적 반응변수 y 예측

Y = β₀ + β₁X + ε

-Y는 종속 변수
-X는 독립 변수
-β₀는 절편(intercept)으로, X가 0일 때의 Y의 값
-β₁은 기울기(slope)으로, X의 증가에 따른 Y의 변화량
-ε은 오차항으로, 모델로 설명되지 않는 잔차

01. 계수 추정값
: 주어진 데이터를 기반으로 모델의 절편(intercept)과 기울기(slope)를 추정하는 과정, 주로 최소제곱법 사용

β₁ = Σ((Xᵢ - X̄)(Yᵢ - Ȳ)) / Σ((Xᵢ - X̄)²)

β₀ = Ȳ - β₁X̄

02. 잔차표준오차
: 회귀 모델의 잔차 오차의 표준 편차를 나타내는 지표, 잔차 오차는 실제 관측값과 모델로 예측한 값 사이의 차이를 의미

RSE = sqrt((RSS) / (n - p - 1))

RSS = Σ(yᵢ - ŷᵢ)²

TSS = Σ(yᵢ - Ȳ)²

RSE -> 작을수록 예측률 높음, 잔차 변동 적음, 데이터에 적합 잘됨
RSS -> 작을수록 잔차 오차 최소화
TSS -> 클수록 총 변동 큼

03. R² 통계량
: 회귀 모델의 설명력을 나타내는 지표, 종속 변수의 변동 중 모델에 의해 설명되는 비율을 나타냄

R² = 1 - (RSS / TSS)

R² -> 1에 가까울수록 데이터에 잘 적합

2. 다중선형회귀

: 종속 변수와 둘 이상의 독립 변수 간의 선형 관계를 모델링하는 회귀 분석 기법

Y = β₀ + β₁X₁ + β₂X₂ + ... + βₚXₚ + ε
RSE = sqrt(RSS / (n - p - 1))
RSS = Σ(yᵢ - ŷᵢ)²
TSS = Σ(yᵢ - Ȳ)²
R^2 = 1 - (RSS / TSS)

01. F-통계량
: 회귀 모델의 분산 분석

F = ( (TSS - RSS) / p ) / ( RSS / (n - p - 1) )

F-statistic -> 값이 클수록 영향 유의미
*n은 샘플 개수, p는 모델에 사용된 독립변수 개수

3. Lab : 선형회귀

profile
갓난 아이의 거짓 울음

0개의 댓글