[ADsP] 12강 회귀분석 ~ 시계열 분석
2. 단순선형회귀분석
1) 회귀계수의 추정
(1) 단순선형회귀 분석
- 독립변수와 종속변수가 1개씩일 때 둘 사이의 인과관계를 분석하는 것
- 두 변수의 관계가 선형
- 최소제곱법을 활용하여 실제 데이터와 오차가 가장 작아지는 직선의 방정식
(2) 최소제곱법으로 회귀계수 추정 ★★★
- 최소제곱법 : 실제 관측치와 추세선에 의해 예측된 점 사이의 거리, 즉 오차를 제곱해 더한 값을 최소화하는 것
- 회귀분석의 기본 알고리즘 : 최소제곱법을 통해 파라미터를 추정하고 추정된 파라미터를 통해 추세선을 그려 값을 예측하는 것
2) 회귀분석모형의 적합성 ★★★
(1) 회귀분석의 분산분석표
- 회귀분석의 결과에 대한 모형 적합성을 검정하기 위해 사용
(2) 회귀모형의 통계적 유의성 검증 ★★★
- 회귀모형의 귀무가설은 모든 회귀계수는 0이다 이며, F-검정을 통해 확인
- F-검정 : 분산의 차이를 확인할 때 사용, 분산의 차이가 크다 = 회귀계수가 크다
- F-통계량 : F값이 크다 = 회귀계수가 크고 가파르다 => 변수 간 유의미한 관계가 존재한다는 의미
(3) 회귀계수의 통계적 유의성 검증
- 회귀계수의 유의성은 t-검정을 통해 확인
- t-통계량은 회귀계수를 표준오차로 나눈 값
- t-통계량이 크다는 것은 분모가 작다는 의미
- t-통계량이 크면 회귀계수도 커지고, 회귀계수가 크므로 유의미한 인과관계가 검증
(4) 모형의 설명력 ★★★
- 회귀모형의 설명력이 좋다 = 데이터들의 분포가 회귀선에 밀접하게 분포
- 회귀분석 결과를 분산분석하고 도출된 결정계수 R^2로 모형의설명력을 판단
- 결정계수 R^2이 1에 가깝다면 데이터들이 회귀선에 매우 밀접하게 분포 = 회귀모형의 예측력이 높다
참고 : QQ-plot
* QQ-plot : 모집단 또는 표본집단의 정규분포를 따르는지 시각적으로 확인하기 위한 산점도
3. 다중선형회귀분석
1) 다중선형회귀 분석
- 독립변수가 2개 이상이고 종속변수가 하나일 때 사용 가능한 회귀분석
2) 다중공선성 ★★★
(1) 다중공선성의 개념
- 독립변수가 2개 이상인 다중선형회귀분석에서는 다중공선성에 유의
- 독립변수 간에 강한 상관관계가 나타나는 문제
- 다중공선성이 존재하면 회귀분석의 기본 가정인 독립성(독립변수 간에는 상관관계가 없이 독립이다)에 위배
- 다중공선성을 해결하지 않고 분석을 하면 분석 결과의 회귀계수를 신뢰할 수 업소 잘못된 결과 도출
(3) 다중공선성의 진단
- 결정계수 값이 커서 회귀식의 설명력은 높지만 각 독립변수인 p-value 값이 커서 개별 인자가 유의하지 않은 경우 다중공선성을 의심
- 분산팽창요인(VIF)을 구해 이 값이 10을 넘는다면 보통 다중공선성이 있다고 판단
(4) 다양한 다중공선성 문제 해결법 (주로 삭제 or 축소)
- 문제가 발생하는 변수를 제거
- 주성분분석(PCA)을 통해 변수의 차원을 축소
- R에서 '스크리 산점도'를 사용해 주성분 개수를 선택
- 선형판별분석(LDA)로 차원을 축소
- t-분포 확률적 임베딩(t-SNE)으로 차원을 축소 등
4. 최적 회귀방정식
1) 최적 회귀방정식
(1) 최적 회귀방정식의 개념
- 1개의 반응변수 y를 설명하기 위한 k개의 독립변수 후보들이 있을 때 반응변수 y를 가장 잘 설명할 수 있는 회귀식을 찾는 것
- 모델의 성능을 향상시키기 위해 사용
(2) 최적의 회귀방정식을 도출하기 위한 방법 ★★
- 변수선택법 - 부분집단법, 단계적 변수선택법
- 부분집단법 : 모든 가능한 모델을 고려하여 가장 좋은 모델을 선정하는 방법
- 단계적 변수선택법 : 일정한 단계를 거치면서 변수를 추가하거나 혹은 제거하는 방식
참고 : 변수선택법의 작동 원리에 따른 분류(임베디드, 래퍼, 필터)
* 임베디드 : 부분집합의 생성 및 선택 과정이 모형학습 과정에 포함
* 래퍼 : 특정 모형의 성능 향상에 가장 이상적인 변수의 조합을 찾는 방법
* 필터 : 모형학습과 독립적으로 변수 집합 F에서 적합도 평가 지표를 이용하여 기준 조건을 충족하는 변수를 선택함으로써 부분 집합을 구성하는 방법
2) 변수 선택에 사용되는 성능지표 ★★★
(1) 벌점화(penalty: 페널티) 방식의 AIC와 BIC
- 변수의 수가 많아 복잡해진 모형에 벌점, 즉 일종의 페널티를 주어 최적 회귀방식을 도출
- 페널티가 적은 회귀모형이 좋은(설명력이 높은 = 최적화된 회귀방정식) 회귀모형
(2) AIC(Akaike Information Criteria : 아케이케 정보 기준)
- 모델의 성능지표로서 MSE에 변수 수만큼 페널티를 주는 지표
(3) BIC(Bayes Information Criteria : 베이즈 정보 기준)
- AIC의 단점인 표본(n)이 커질 때 부정확하다는 단점을 보완한 지표
(4) 멜로우 Cp(Mallow's Cp)
- 멜로우가 제안한 통계량으로 Cp값은 최소자승법으로 사용하여 추정된 회귀모형의 적합성을 평가
3) 단계적 변수 선택법 ★★★
(1) 전진선택법(forward selection)
- 모든 독립변수 가운데 기준 통계치에 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가하면서 모형을 선택
- 안정성이 부족한 방법
(2) 후진제거법(backward elimination)
- 독립변수를 모두 포함하여 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법
- 변수의 갯수가 너무 많은 경우 적용의 어려움
(3) 단계별 방법(stepwisw method)
- 전진선택법과 후진제거법을 보완한 방법
5. 고급 회귀분석
1) 정규화 선형회귀
(1) 과적합과 과소적합 ★★★
- 과적합(과대적합) : 모델이 학습 데이터를 과하게 학습하는 것을 의미
- 과소적합 : 모델이 너무 단순해서 학습 데이터조차 제대로 예측하지 못하는 경우
(2) 정규화 선형회귀
- 계수의 크기를 제한하는 방법
(3) 정규화 선형회귀의 종류 ★★★
- 라쏘(Lasso Regression)
* L1 규제, 가중치들의 절댓값의 합을 최소화하는 것을 제약조건을 추가하는 방법
- 릿지(Ridge Regression)
* L2 규제, 가중치들의 제곱합을 최소화하는 것을 제약조건으로 추가하는 방법
- 엘라스틱넷(Elastic Net)
* 라소와 릿지의 결합, 가중치의 절댓값의 합과 제곱합을 동시에 제약조건으로 가지는 모형
2) 일반화 선형회귀(GLM, Generailized Linear Regression)
(1) 일반화 선형회귀의 개념
- 종속변수가 범주형 자료이거나 정규성을 만족하기 못하는 경우 종속변수를 적절한 함수로 정의한 다음 선형 결합하여 회귀분석을 진행하는 방법
(2) 일반화 선횡회귀의 구성요소
- 확률 요소 : 종석변수의 확률분포를 규정하는 성분
- 선형 예측자 : 종속변수의 기댓값을 정의하는 독립변수들 간의 선형 결헙
- 연결 함수 : 확률 요소와 선형예측자를 연결하는 함수
(3) 일반화 선형회귀의 종류 ★★★
- 로지스틱 회귀(Logistic regression)
* 종속변수가 범주형 변수(0 또는 1, 합격/불합격 등)인 경우로 의학연구에 많이 사용
- 포아송 회귀(Poisson regression)
* 종속변수가 특정 시간 동안 발생한 사건의 건수에 대한 도수 자료(count data)인 경우 and 정규분포를 따르지 않거나 등분산성을 만족하지 못하는 경우
3) 더빈 왓슨(Durbin-Watson) 검정
(1) 오차항의 상관관계
- 오차항이 상관관계를 갖는 대부분의 경우 시계열의 데이터
- 자기상관성 : 하나의 잔차항의 크기가 이웃하는 다른 잔차항의 크기와 서로 일정한 관련
(2) 더빈 왓슨 검정
- 자기상관성이 존재하는지 검정하는 방법
- 통계량 값이 2에 가까울수록 오차항의 자기상관이 없다는 의미
- 만약 0에 가깝다는 양의 상관관계, 4에 가깝다면 음의 상관관계
04 다변량 분석
1. 다차원 척도법
1) 다차원 척도법의 개요
(1) 다차원 척도법(Multidimensional Scaling, MDS)의 개념
- 객체 간의 근접성을 시각화하는 통계 기법, 군집분석와 유사
- 군집분석처럼 접으로 표현
- 객체들 간의 거리는 유클리디안 거리행렬을 사용하여 계산
(2) 다차원 척도법의 측도 ★★
- 개체의 실제 거리와 모형에 의해 추정된 거리 사이의 적합도를 측정하기 위해 stress 척도를 사용
- stress 값은 0~1 사이의 값, 그 값이 낮을수록 적합도가 높다.
2. 주성분분석(PCA)
1) 주성분분석 개요
(1) 주성분분석의 개념
- 여러 개의 변수 중 서로 상관성이 높은 변수들의 선형 결합으로 새로운 변수(주성분)를 만들어 기존 변수를 요약 및 축소하는 분석 방법
- 두 개의 변수를 이해하기 힘든 경우 데이터들의 변수를 요약하여 하나의 변수로만 데이터의 위치 정보를 나타내는 방법
(2) 주성분분석의 목적 ★★
- 모형의 설득력을 높임
- 다중공선성 문제 해결
- 군집분석 시 모형의 성능을 높임
- 주성분분석 시 선형변환이 필요
(3) 주성분분석 방법
- 주어진 데이터를 하나의 변수로 요약하면서 그에 따른 데이터의 손실(점선)이 발생
- 손실이 가장 작은 축 즉, 자료의 분산(퍼진 정도)이 가장 큰 축을 찾아서 새로운 변수로 만듬
- 고유값 : 고유 벡터의 크기를 의미, 해당 값이 클수록 높은 설명력,
- 평균 교유값 방법 : 고유값들의 평균을 구한 뒤 고유값이 평군보다 작은 값을 갖는 주성분을 제거하는 것
05 시계열 분석
1. 시계열 분석의 개요
1) 시계열 분석의 개념
(1) 시계열 분석의 개념
- 시계열 분석은 일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측하는 분석방법
(2) 시계열 자료의 자기상관성 ★★★
- 사계열 자료는 인접한 자료들과 상호 연관성을 가진다
- 공분산 : 두 개의 확률 변수의 선형관계를 타나내며, 두 개의 확률 변수의 흩어진 정도를 표현한 것
2) 시계열 자료의 정상성 조건 ★★★
(1) 일정한 평균
- 모든 시점에 대하여 평균이 일정, 차분으로 정상화 가능
- 차분 : 현 시점의 자료 값에서 전 시점의 자료 값을 빼는 것
(2) 일정한 분산
- 모든 시점에 대하여 분산이 일정
(3) 시차에만 의존하는 공분산
- 공분산은 시차에만 의존하고 특정 시점에 의존하지 않는다
3) 자기상관계수
(1) 자기상관계수(ACF)
- 시간의 흐름에 따른 자기상관관계
(2) 부분자기상관계수(PACF)
- 두 시계열 확률변수 간에 다른 시점의 확률변수 영향력은 통제하고 상관관계
4) 시계열 분석 기법 ★★
(1) 이동평균법
- 시계열 데이터에서 일정 기간별로 자료를 묶어 평균을 구하는 방법
- 시간이 지남에 따라 평균 계산에 포함되는 자료가 바뀜
- 모든 시점에 대해서 동일한 가중치를 줌, 장기적 예측에 사용
(2) 지수평활법
- 최근 자료에 대해 더 큰 가중치를 부여, 오래된 자료에 작은 비중을 부여
- 중장기 예측에 주로 사용
2. 시계열모형
1) 자기회귀(AR) 모형 ★★★
- 이전 시점들의 자료값들에 의한 선형 결합
- t라는 시점에서의 값은 이전 시점들 n개에 의해 설명 가능
- 특정 시점 t로부터 k번째 이전 시점들은 각각의 다른 가중치 값을 가지고 있다.
2) 이동평균(MA) 모형 ★★★
- 이전 시점의 백색잡음들의 선형 결합
- 항상 정상성을 만족하는 모형
3) 자기회귀누적이동평균모형(ARIMA) ★★★
- 비정상 시계열 자료를 다룰 수 있는 모형으로 현실에 존재하는 대부분의 시계열 자료를 설명 가능
- 비정상 시계열이기 때문에 차분으로 정상화 가능
- d값 : 시계열 자료를 정상화하기 위한 필요 차분 횟수
4) 분해 시계열 ★★
- 추세요인, 계절요인, 순환요인, 불규칙요인 등으로 구성되며, 이러한 요인이 서로 복잡하게 혼합되어 하나의 시계열 데이터를 구성
- 분해 시계열 구성요소 : 추세, 계절, 순환, 불규칙
* 추세요인 : 장기간 일정한 방향으로 상승 또는 하락하는 경향을 보이는 요인
* 순환요인 : 정확히 알려진 이유가 없고 주기가 일정하지 않은 변동
* 계절요인 : 일정한 주기를 가지는 상하 반복의 규칙적인 변동
* 불규칙요인 : 위 세가지 요인으로 설명하지 못하는 오차에 해당하는 요인으로 어떠한 규칙성 없이 우연히 발생하는 예측 불가능한 변동