[책 정리] 선형 회귀

장우솔·2022년 5월 3일
0

Statistic

목록 보기
1/5
post-thumbnail

기계학습의 근간은 컴퓨터가 스스로 복잡하고 다양한 자료에서 상관관계를 분석하고 학습하여 유의미한 결과를 도출하는 통계적 학습이다. 다양한 통계학습 방법들에 기본적 이해는 알고리즘의 구현 및 적용, 결과에 대한 이해, 해석능력을 높여주는데 중요한 자산이 될 것이다옹 따라서 [책]"가볍게 시작하는 통계학습"을 공부하고 중요한 부분을 정리해보겠다 !

2장-통계학습

Y=f(X)+e
여기서 f는 x1...,xp 에 대한 알려지지 않은 어떤 고정함수이고 오차항은 X와 독립적이며 평균은 0이다.

f를 추정하는 이유는?
Y에 대한 예측과 추론을 하기 위해

어떻게 f를 추정할까?
모수적, 비모수적 방법이 있다.
비모수적 방법은 f의 함수 형태에 대한 가정을 하지 않아도 되므로 넓은 범위의 f형태에 정확하게 적합될 가능성이 있지만 f를 추정하는 문제를 작은 수의 파라미터 추정 문제로 축소하지 않으므로, 아주 많은 관측치가 필요하다.(모수적 기법에서 필요로 하는 것보다 훨씬 많이)
비모수적인 방법으로 KNN이 있다. K값이 작으면 적합이 유연해져 편향은 낮지만 분산이 크다.

* 예측 정확도와 모델 해석력 사이의 절충(Trade-off)


선형회귀는 f를 추정하는데 비교적 작은 범위의 함수 형태만 제공할 수 있다는 점에서 유연하지 않은 모델이다. 평면과 같은 선형함수만 생성할 수 있기 때문이다.
하지만 왜 유연한 기법 대신 더 제한적인 방법을 선택해서 사용할까?
제한적인 모델이 훨씬 더 해석하기 쉽기 때문이다. 선형모델은 x1, x2,...xp와 Y 사이의 상관관계를 이해하기 아주 쉽기 때문에 선택된다. 매우 유연한 기법들은 f추정이 복잡하게 되어 어떤 개별 설명변수가 반응변수와 어떻게 연관되는지 이해하기 어려울 수 있다.
--> 일반적으로 유연성이 증가함에 따라 해석력은 감소한다.

  • 비지도학습
    반응변수가 없으므로 선형모델을 적합하는 것은 불가능하고 변수들 간의 상관관계를 이해하고자한다. 사용할 수 있는 통계학습 도구는 클러스터링이다. 관측치가 속하는 그룹을 결정하는 것이 목적이다.

  • 자유도 : 통계적 추론을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수
    충분히 유연하지 않은 모델, 즉 좀더 제한적인(매끄러운 곡선) 곡선은 꾸불꾸불한 곡선보다 자유도가 낮다.

  • 검정 MSE의 평균(기댓값)은 fhat(x)의 분산, 제곱편향, 오차항e의 분산의 합으로 분해된다.

  • 분산: 다른 훈련자료를 사용하여 추정하는 경우 fhat이 변동되는 정도를 말한다.

통계학습방법이 유연할수록 분산도 더 크다.
이론상 질적 반응변수는 베이즈분류기를 사용하여 예측하는 것이 항상 가장 좋다. 그러나, 실제 데이터에서 주어진 x에 대한 y의 조건부분포를 모르므로 베이즈분류기를 계산할 수 없다. 그러므로 베이즈분류기는 다른 방법들을 비교하는데 사용되는 달성할 수 없는 표준 역할을 한다.







3장-선형회귀

선형회귀에서 실제로 beta(0), beta(1)은 알려져 있지 않다. 목적은 선형모델이 이용가능한 데이터에 잘 적합되도록 하는 계수 추정값을 얻는 것이다.
X에 기초한 Y의 예측값을 구할 때 실제값과 차이인 ‘잔차’가 발생한다.

  • 모집단에서 차이 오차. 표본에서 차이 잔차/ 모집단에서 표준편차. 표본에서 표준오차 (SE와 SEhat인데 표기단순함을 위해 hat을 생략한다.)

최소제곱법은 잔차제곱합(RSS)를 최소화하는 계수추정값을 선택한다. 즉 최소제곱법을 사용하여 파라미터들을 추정한다.
일반적으로 는 잘 알려져있지 않지만 데이터로부터 추정할 수 있다. 의 추정치는 잔차표준오차이며 RSE로 구해진다.

  • 모델의 적합도를 나타내는 측도
    1) RSE
    2) R^2

RSE는 데이터에 대한 선형회귀 모델의 적합성결여를 나타내는 측도로 간주된다.

관련식

설명변수와 반응변수 사이에 상관관계가 있는지 검사하는데 F통계량을 사용하는 방법은 p가 상대적으로 작고 n과 비교하여 명백히 작을 때 동작한다. p가 클 때는 전진선택과 같은 방법을 사용하면 된다.

모델 적합

모델 적합의 수치적 측도로 가장 흔히 사용되는 두가지는 RSE와 R^2(설명되는 분산비율)이다. R^2은 반응변수와 설명변수의 상관계수의 제곱이다. 1에 가까운 R^2값은 모델이 반응변수 내 분산의 많은 부분을 설명한다는 것을 나타낸다.

예를 들어 도시에 판매량,
신뢰구간은 많은 수의 도시에 대한 평균 판매량을 둘러싼 불확실성을 수량화
예측구간은 특정 도시의 판매량에 대한 불확실성을 수량화하는데 사용.

F검정은 가변수 코딩에 의존적이지 않다. 귀무가설 기각하는지 알기 위해선 모델의 F-통계량에 대응하는 P값을 보고, 변수의 중요성을 보려면 각 설명변수의 t-통계량에 대응하는 P값을 본다.

표준선형회귀모델의 가장 중요한 가정

설명변수와 반응변수 사이의 관계는 가산적이고, 선형적이다.
가산적 가정의 의미: 반응변수에 미치는 설명변수의 영향은 다른 설명변수 값에 독립적이다. 선형적 가정의 의미: X하나의 변화로 인한 Y변화는 X들의 값에 관계없이 상수이다.

가산적 가정이 무시되면, 즉 상호작용 효과가 있다면 상호작용 항이라 불리는 세 번째 설명변수를 포함시켜 가산성 가정을 완화한다.
상호작용 항에 의해 설명되는 R2값 : (상호작용항 있는 R2-상호작용항 없는 R2)/(100-상호작용항 없는 R2)

X1, X2사이의 상호작용이 중요한 것같으면 X1과 X2의 계수추정치가 큰 P값을 가져도 모델에 X1,X2를 포함해야한다.

비선형 상관관계인 경우, 다항식회귀를 사용하여 선형모델을 확장한다. 이차형태인 것처럼 보이면, 이차식으로 만들어서 설명변수를 포함시킨다. 5차까지 모든 다항식을 포함하면 필요이상으로 꾸불꾸불할 수 있다. 즉 추가적인 항을 포함하는 것이 실제로 데이터에 더 잘 적합되는지 명확하지 않다.

선형회귀모델을 자료에 적합할 때 발생하는 문제점

  1. 반응-설명 변수 상관관계의 비선형성
    선형회귀모델은 반응-설명변수 사이의 직선 상관관계가 있다고 가정한다. 만약 잔차 그래프가 비선형 상관성이 있다는 것을 나타내면, Log X, X^2과 같이 설명변수들을 비선형적으로 변환하여 회귀모델에 적용한다.

  2. 오차항들의 상관성
    선형회귀모델은 오차항들이 서로 상관되어 있지 않다고 가정한다.
    오차항들 사이의 상관성이 있으면 추정된 표준오차는 실제 표준오차를 과소추정하는 경향이 있다. 그 결과 실질적인 신뢰구간과 예측구간은 계산된 수치보다 더 넓을 것이다. 그럼 모수가 통계적으로 유의하다고 잘못된 결론을 내릴 수 있다.
    즉, 오차항이 상관되어 있을 경우 모델에 대한 근거가 부족할 수 있다.

  3. 오차항의 상수가 아닌 분산
    선형회귀모델은 오차항들의 분산이 상수라고 가정한다. (잔차 분산이 같은 등분산성이다.)
    하지만 오차항들의 분산이 반응변수 값에 따라 증가할 수 있다. 이때는 잔차 그래프에서 깔때기 형태가 있는지 보고 식별할 수 있다. 이런 문제가 발생하면 logY 또는 루트Y와 같은 오목함수를 사용하여 반응변수를 변환한다. 그럼 반응변수 값이 클수록 더 많이 축소하여 이분산성을 줄인다.

  4. 이상치
    데이터를 수집할 때 관측치를 잘못 기록하는 것과 같은 원인. 최소제곱적합에 큰 영향을 미치진 않아도 하나의 관측치에 대한 급격한 수치증가는 적합해석에 영향을 줄 수 있다. R2도 이상치를 포함하면 줄어든다. 이 문제를 해결하기 위해 스튜던트화 잔차 그래프를 그린다. 이는 각 잔차를 추정표준오차로 나누어 계산한다. 스튜던트화 잔차의 절댓값이 3보다 큰 관측치는 이상치이다.

  5. 레버리지가 높은(영향력이 큰) 관측치
    높은 레버리지를 가지는 관측치는 대응하는 x값이 보통 수준과 다르다. 다중선형회귀에서는 각 개별 설명변수 값이 범위 내에 있지만 전체 설명변수를 고려하면 보통수준과는 다른 관측치가 있을 수 있다. 레버리지 통계량은 항상 1/n과 1 사이값이고 평균 레버리지는 항상 (p+1)/n이다. 따라서 (p+1)/n보다 큰 레버리지 통계량을 가지면 의심해볼 수 있다.

  6. 공선성
    공선성은 두 개 또는 그 이상의 설명변수들이 서로 밀접하게 상관되어 있는 경우를 말한다.
    (공선형적이다.) 이는 반응변수에 대한 공선형 변수들의 개별 효과를 분리하기 어려워 회귀에서 문제를 일으킬 수 있다. 공선성은 회귀계수의 추정치 정확성을 낮추므로 표준오차가 증가한다. 각 설명변수의 t통계량은 beta(hat)i를 표준오차로 나눠서 계산하기에 t통계량을 줄인다. 그 결과 공선성이 존재하면 H0를 기각하지 못할 수 있다. 즉 가설검정의 능력이 공선성에 의해 줄어든다.
    공선성 판별 방법
    다중공선성은 분산팽창인수(VIF)를 계산해서 판단한다. VIF의 가장 작은 값은 1이며 공선성이 전혀 없음을 나타낸다. 5또는 10을 초과하는 값은 공선성을 나타낸다.
    공선성 해결 방법
    문제가 있는 변수들 중 하나를 제외한다. 또는 공선성 변수들을 새로운 단일 설명변수로 결합한다.

선형회귀와 KNN 비교

선택된 모수 형태가 f의 실제 형태에 가까운 경우 비모수방법보다 더 나은 결과를 낸다.
상관관계가 선형적일 때는 선형회귀가 더 낫고 상관관계가 비선형적인 경우에는 KNN이 낫다. 하지만 상관관계가 비선형인 경우에도 여전히 KNN이 더 못한 결과를 줄 수있다. 차원이 높은 경우 KNN은 보통 선형회귀보다 성능이 나쁘다. 원인은 고차원으로 갈수록 표본크기가 실질적으로 줄어드는 효과가 있기 때문이다.

profile
공부한 것들을 정리하는 블로그

0개의 댓글