[ADsP] 12강 회귀분석 ~ 시계열 분석

Data_Student·2024년 10월 29일

ADsP

목록 보기

9/11

[ADsP] 12강 회귀분석 ~ 시계열 분석

2. 단순선형회귀분석

1) 회귀계수의 추정
(1) 단순선형회귀 분석
 - 독립변수와 종속변수가 1개씩일 때 둘 사이의 인과관계를 분석하는 것
 - 두 변수의 관계가 선형
 - 최소제곱법을 활용하여 실제 데이터와 오차가 가장 작아지는 직선의 방정식
(2) 최소제곱법으로 회귀계수 추정 ★★★
 - 최소제곱법 : 실제 관측치와 추세선에 의해 예측된 점 사이의 거리, 즉 오차를 제곱해 더한 값을 최소화하는 것
 - 회귀분석의 기본 알고리즘 : 최소제곱법을 통해 파라미터를 추정하고 추정된 파라미터를 통해 추세선을 그려 값을 예측하는 것

2) 회귀분석모형의 적합성 ★★★
(1) 회귀분석의 분산분석표
 - 회귀분석의 결과에 대한 모형 적합성을 검정하기 위해 사용
(2) 회귀모형의 통계적 유의성 검증 ★★★
 - 회귀모형의 귀무가설은 모든 회귀계수는 0이다 이며, F-검정을 통해 확인
 - F-검정 : 분산의 차이를 확인할 때 사용, 분산의 차이가 크다 = 회귀계수가 크다
 - F-통계량 : F값이 크다 = 회귀계수가 크고 가파르다 => 변수 간 유의미한 관계가 존재한다는 의미
(3) 회귀계수의 통계적 유의성 검증
 - 회귀계수의 유의성은 t-검정을 통해 확인
 - t-통계량은 회귀계수를 표준오차로 나눈 값
 - t-통계량이 크다는 것은 분모가 작다는 의미
 - t-통계량이 크면 회귀계수도 커지고, 회귀계수가 크므로 유의미한 인과관계가 검증
(4) 모형의 설명력 ★★★
 - 회귀모형의 설명력이 좋다 = 데이터들의 분포가 회귀선에 밀접하게 분포
 - 회귀분석 결과를 분산분석하고 도출된 결정계수 R^2로 모형의설명력을 판단
 - 결정계수 R^2이 1에 가깝다면 데이터들이 회귀선에 매우 밀접하게 분포 = 회귀모형의 예측력이 높다
 참고 : QQ-plot
  * QQ-plot : 모집단 또는 표본집단의 정규분포를 따르는지 시각적으로 확인하기 위한 산점도

3. 다중선형회귀분석

1) 다중선형회귀 분석
  - 독립변수가 2개 이상이고 종속변수가 하나일 때 사용 가능한 회귀분석
  
2) 다중공선성 ★★★
(1) 다중공선성의 개념
 - 독립변수가 2개 이상인 다중선형회귀분석에서는 다중공선성에 유의
 - 독립변수 간에 강한 상관관계가 나타나는 문제
 - 다중공선성이 존재하면 회귀분석의 기본 가정인 독립성(독립변수 간에는 상관관계가 없이 독립이다)에 위배
 - 다중공선성을 해결하지 않고 분석을 하면 분석 결과의 회귀계수를 신뢰할 수 업소 잘못된 결과 도출
(3) 다중공선성의 진단
 - 결정계수 값이 커서 회귀식의 설명력은 높지만 각 독립변수인 p-value 값이 커서 개별 인자가 유의하지 않은 경우 다중공선성을 의심
 - 분산팽창요인(VIF)을 구해 이 값이 10을 넘는다면 보통 다중공선성이 있다고 판단
(4) 다양한 다중공선성 문제 해결법 (주로 삭제 or 축소)
 - 문제가 발생하는 변수를 제거
 - 주성분분석(PCA)을 통해 변수의 차원을 축소
 - R에서 '스크리 산점도'를 사용해 주성분 개수를 선택
 - 선형판별분석(LDA)로 차원을 축소
 - t-분포 확률적 임베딩(t-SNE)으로 차원을 축소 등

4. 최적 회귀방정식

1) 최적 회귀방정식
(1) 최적 회귀방정식의 개념
 - 1개의 반응변수 y를 설명하기 위한 k개의 독립변수 후보들이 있을 때 반응변수 y를 가장 잘 설명할 수 있는 회귀식을 찾는 것
 - 모델의 성능을 향상시키기 위해 사용
(2) 최적의 회귀방정식을 도출하기 위한 방법 ★★
 - 변수선택법 - 부분집단법, 단계적 변수선택법
 - 부분집단법 : 모든 가능한 모델을 고려하여 가장 좋은 모델을 선정하는 방법
 - 단계적 변수선택법 : 일정한 단계를 거치면서 변수를 추가하거나 혹은 제거하는 방식
 참고 : 변수선택법의 작동 원리에 따른 분류(임베디드, 래퍼, 필터)
  * 임베디드 : 부분집합의 생성 및 선택 과정이 모형학습 과정에 포함
  * 래퍼 : 특정 모형의 성능 향상에 가장 이상적인 변수의 조합을 찾는 방법
  * 필터 : 모형학습과 독립적으로 변수 집합 F에서 적합도 평가 지표를 이용하여 기준 조건을 충족하는 변수를 선택함으로써 부분 집합을 구성하는 방법

2) 변수 선택에 사용되는 성능지표 ★★★
(1) 벌점화(penalty: 페널티) 방식의 AIC와 BIC
 - 변수의 수가 많아 복잡해진 모형에 벌점, 즉 일종의 페널티를 주어 최적 회귀방식을 도출
 - 페널티가 적은 회귀모형이 좋은(설명력이 높은 = 최적화된 회귀방정식) 회귀모형
(2) AIC(Akaike Information Criteria : 아케이케 정보 기준)
 - 모델의 성능지표로서 MSE에 변수 수만큼 페널티를 주는 지표
(3) BIC(Bayes Information Criteria : 베이즈 정보 기준)
 - AIC의 단점인 표본(n)이 커질 때 부정확하다는 단점을 보완한 지표
(4) 멜로우 Cp(Mallow's Cp)
 - 멜로우가 제안한 통계량으로 Cp값은 최소자승법으로 사용하여 추정된 회귀모형의 적합성을 평가

3) 단계적 변수 선택법 ★★★
(1) 전진선택법(forward selection)
 - 모든 독립변수 가운데 기준 통계치에 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가하면서 모형을 선택
 - 안정성이 부족한 방법
(2) 후진제거법(backward elimination)
 - 독립변수를 모두 포함하여 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법
 - 변수의 갯수가 너무 많은 경우 적용의 어려움
(3) 단계별 방법(stepwisw method)
 - 전진선택법과 후진제거법을 보완한 방법

5. 고급 회귀분석

1) 정규화 선형회귀
(1) 과적합과 과소적합 ★★★
 - 과적합(과대적합) : 모델이 학습 데이터를 과하게 학습하는 것을 의미
 - 과소적합 : 모델이 너무 단순해서 학습 데이터조차 제대로 예측하지 못하는 경우
(2) 정규화 선형회귀
 - 계수의 크기를 제한하는 방법
(3) 정규화 선형회귀의 종류 ★★★
 - 라쏘(Lasso Regression)
  * L1 규제, 가중치들의 절댓값의 합을 최소화하는 것을 제약조건을 추가하는 방법
 - 릿지(Ridge Regression)
  * L2 규제, 가중치들의 제곱합을 최소화하는 것을 제약조건으로 추가하는 방법
 - 엘라스틱넷(Elastic Net)
  * 라소와 릿지의 결합, 가중치의 절댓값의 합과 제곱합을 동시에 제약조건으로 가지는 모형

2) 일반화 선형회귀(GLM, Generailized Linear Regression)
(1) 일반화 선형회귀의 개념
 - 종속변수가 범주형 자료이거나 정규성을 만족하기 못하는 경우 종속변수를 적절한 함수로 정의한 다음 선형 결합하여 회귀분석을 진행하는 방법
(2) 일반화 선횡회귀의 구성요소
 - 확률 요소 : 종석변수의 확률분포를 규정하는 성분
 - 선형 예측자 : 종속변수의 기댓값을 정의하는 독립변수들 간의 선형 결헙
 - 연결 함수 : 확률 요소와 선형예측자를 연결하는 함수
(3) 일반화 선형회귀의 종류 ★★★
 - 로지스틱 회귀(Logistic regression)
  * 종속변수가 범주형 변수(0 또는 1, 합격/불합격 등)인 경우로 의학연구에 많이 사용
 - 포아송 회귀(Poisson regression)
  * 종속변수가 특정 시간 동안 발생한 사건의 건수에 대한 도수 자료(count data)인 경우 and 정규분포를 따르지 않거나 등분산성을 만족하지 못하는 경우

3) 더빈 왓슨(Durbin-Watson) 검정
(1) 오차항의 상관관계
 - 오차항이 상관관계를 갖는 대부분의 경우 시계열의 데이터
 - 자기상관성 : 하나의 잔차항의 크기가 이웃하는 다른 잔차항의 크기와 서로 일정한 관련
(2) 더빈 왓슨 검정
 - 자기상관성이 존재하는지 검정하는 방법
 - 통계량 값이 2에 가까울수록 오차항의 자기상관이 없다는 의미
 - 만약 0에 가깝다는 양의 상관관계, 4에 가깝다면 음의 상관관계

04 다변량 분석

1. 다차원 척도법

1) 다차원 척도법의 개요
(1) 다차원 척도법(Multidimensional Scaling, MDS)의 개념
 - 객체 간의 근접성을 시각화하는 통계 기법, 군집분석와 유사
 - 군집분석처럼 접으로 표현
 - 객체들 간의 거리는 유클리디안 거리행렬을 사용하여 계산
(2) 다차원 척도법의 측도 ★★
 - 개체의 실제 거리와 모형에 의해 추정된 거리 사이의 적합도를 측정하기 위해 stress 척도를 사용
 - stress 값은 0~1 사이의 값, 그 값이 낮을수록 적합도가 높다.

2. 주성분분석(PCA)

1) 주성분분석 개요
(1) 주성분분석의 개념
 - 여러 개의 변수 중 서로 상관성이 높은 변수들의 선형 결합으로 새로운 변수(주성분)를 만들어 기존 변수를 요약 및 축소하는 분석 방법
 - 두 개의 변수를 이해하기 힘든 경우 데이터들의 변수를 요약하여 하나의 변수로만 데이터의 위치 정보를 나타내는 방법
(2) 주성분분석의 목적 ★★
 - 모형의 설득력을 높임
 - 다중공선성 문제 해결
 - 군집분석 시 모형의 성능을 높임
 - 주성분분석 시 선형변환이 필요
(3) 주성분분석 방법
 - 주어진 데이터를 하나의 변수로 요약하면서 그에 따른 데이터의 손실(점선)이 발생
 - 손실이 가장 작은 축 즉, 자료의 분산(퍼진 정도)이 가장 큰 축을 찾아서 새로운 변수로 만듬
 - 고유값 : 고유 벡터의 크기를 의미, 해당 값이 클수록 높은 설명력, 
 - 평균 교유값 방법 : 고유값들의 평균을 구한 뒤 고유값이 평군보다 작은 값을 갖는 주성분을 제거하는 것

05 시계열 분석

1. 시계열 분석의 개요

1) 시계열 분석의 개념
(1) 시계열 분석의 개념
 - 시계열 분석은 일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측하는 분석방법
(2) 시계열 자료의 자기상관성 ★★★
 - 사계열 자료는 인접한 자료들과 상호 연관성을 가진다
 - 공분산 : 두 개의 확률 변수의 선형관계를 타나내며, 두 개의 확률 변수의 흩어진 정도를 표현한 것

2) 시계열 자료의 정상성 조건 ★★★
(1) 일정한 평균
 - 모든 시점에 대하여 평균이 일정, 차분으로 정상화 가능
 - 차분 : 현 시점의 자료 값에서 전 시점의 자료 값을 빼는 것
(2) 일정한 분산
 - 모든 시점에 대하여 분산이 일정
(3) 시차에만 의존하는 공분산
 - 공분산은 시차에만 의존하고 특정 시점에 의존하지 않는다

3) 자기상관계수
(1) 자기상관계수(ACF)
 - 시간의 흐름에 따른 자기상관관계
(2) 부분자기상관계수(PACF)
 - 두 시계열 확률변수 간에 다른 시점의 확률변수 영향력은 통제하고 상관관계

4) 시계열 분석 기법 ★★
(1) 이동평균법
 - 시계열 데이터에서 일정 기간별로 자료를 묶어 평균을 구하는 방법
 - 시간이 지남에 따라 평균 계산에 포함되는 자료가 바뀜
 - 모든 시점에 대해서 동일한 가중치를 줌, 장기적 예측에 사용
(2) 지수평활법
 - 최근 자료에 대해 더 큰 가중치를 부여, 오래된 자료에 작은 비중을 부여
 - 중장기 예측에 주로 사용

2. 시계열모형

1) 자기회귀(AR) 모형 ★★★
  - 이전 시점들의 자료값들에 의한 선형 결합
  - t라는 시점에서의 값은 이전 시점들 n개에 의해 설명 가능
  - 특정 시점 t로부터 k번째 이전 시점들은 각각의 다른 가중치 값을 가지고 있다.

2) 이동평균(MA) 모형 ★★★
  - 이전 시점의 백색잡음들의 선형 결합
  - 항상 정상성을 만족하는 모형

3) 자기회귀누적이동평균모형(ARIMA) ★★★
  - 비정상 시계열 자료를 다룰 수 있는 모형으로 현실에 존재하는 대부분의 시계열 자료를 설명 가능   
  - 비정상 시계열이기 때문에 차분으로 정상화 가능
  - d값 : 시계열 자료를 정상화하기 위한 필요 차분 횟수

4) 분해 시계열 ★★
  - 추세요인, 계절요인, 순환요인, 불규칙요인 등으로 구성되며, 이러한 요인이 서로 복잡하게 혼합되어 하나의 시계열 데이터를 구성
  - 분해 시계열 구성요소 : 추세, 계절, 순환, 불규칙
   * 추세요인 : 장기간 일정한 방향으로 상승 또는 하락하는 경향을 보이는 요인
   * 순환요인 : 정확히 알려진 이유가 없고 주기가 일정하지 않은 변동
   * 계절요인 : 일정한 주기를 가지는 상하 반복의 규칙적인 변동
   * 불규칙요인 : 위 세가지 요인으로 설명하지 못하는 오차에 해당하는 요인으로 어떠한 규칙성 없이 우연히 발생하는 예측 불가능한 변동

Data_Student

이전 포스트

[ADsP] 10~11강 기초통계

다음 포스트

[ADsP] 12강 회귀분석 ~ 시계열 분석

ADsP

[ADsP] 12강 회귀분석 ~ 시계열 분석

2. 단순선형회귀분석

3. 다중선형회귀분석

4. 최적 회귀방정식

5. 고급 회귀분석

04 다변량 분석

1. 다차원 척도법

2. 주성분분석(PCA)

05 시계열 분석

1. 시계열 분석의 개요

2. 시계열모형

[ADsP] 10~11강 기초통계

[ADsP] 13강 정형 데이터 마이닝 01

0개의 댓글

관련 채용 정보