[TIL] 250213

MONA·2025년 2월 13일

나혼공

목록 보기
57/92

기초 통계

t-검정

두 그룹의 평균이 통계적으로 유의미하게 차이가 있는지를 검정하는 방법
두 그룹이 정말 다른지, 아니면 우연한 차이인지를 판단하는 데 사용됨

필요한 이유

  • 표본 데이터(샘플)에서 측정한 평균을 바탕으로 모집단(전체 데이터)의 평균 차이를 추론해야 할 때
  • 표본 크기가 작을 때(보통 30개 이하), 정규분포를 따른다고 가정하고 비교
  • 단일표본 t-검정(평균이 특정 값과 다른지), 독립표본 t-검정(두 그룹이 서로 다른지), 대응표본 t-검정(같은 그룹의 전후 변화 비교)가 있음.

데이터가 정규분포를 따르지 않으면 -> 비모수 검정 사용

일 표본 t-검정

가설검정의 일종. 하나의 모집단의 평균값을 특정 값과 비교하는 경우 사용하는 통계적 분석 방법

자유도(df) = n-1 (n:표본 개수)
표본 하나의 평균과 특정 기준값을 비교함

자유도: 표본 크기(n)에 따라 결정되는 값

일 표본 단측 t-검정

  • 모수에 대한 검정을 할 때 모수값이 한쪽으로의 방향성을 갖게 되는 경우 수행하는 검정 방법
  • 모수값이 -보다 크다, -보다 작다의 경우
  • 검정통계량 분석 결과, p-value의 값으로 귀무가설의 채택 여부를 판단(유의수준(ex.0.05)보다 작을 경우 귀무가설 기각, 대립가설 채택)

일 표본 양측 t-검정

  • 모수값이 방향성이 없는 경우 수행되는 검정 방법
  • 모수값이 -이다, -가 아니다

이 표본 t-검정(독립표본 t-검정)

가설검정의 일종. 서로 독립적인 두 개의 집단에 대해 모수(모평균)값이 같은 값을 갖는지 통계적으로 검정하는 방법
등분산성(두 모집단의 분산이 같음)을 만족해야 함->이 표본 t-검정 수행 전에 등분산 검정(F 검정) 수행 필요

(등분산을 가정하는 경우)
자유도(df) = n1 + n2 - 2 (n1, n2: 두 그룹의 표본 개수)

독립: 모집단에서 각각 추출된 두 표본이 서로 관계가 없음

이 표본 단측 t-검정

  • 모수 비교 시 두 집단 사이에 대소가 있는 경우 수행되는 검정 방법
  • a집단보다 b집단이 더 크다, 작다

이 표본 양측 t-검정

  • 모수 비교 시 두 집단 사이에 대소가 없는 경우 수행되는 검정 방법
  • a집단과 b집단이 같다, 다르다

대응 표본 t-검정

동일한 대상에 대해 두가지 관측치가 있는 경우 이를 비교해 차이가 있는지를 검정할 때 사용하는 방법
같은 집단에서 두 시점(또는 조건)에서 측정한 값의 평균 차이를 비교하는 검정 방법
주로 실험 전후의 효과를 비교하기 위해 사용함

자유도(df) = n-1 (n: pair의 개수)

분산분석(ANOVA)

세 개 이상의 모집단이 있을 경우 여러 집단 사이의 평균을 비교하는 검정 방법
분산분석의 귀무가설은 항상 '모든 집단 간 평균은 같다'이다

정규성, 등분산성, 독립성의 가정사항이 필요함

분산분석의 필요 가정사항

  • 정규성: 각 집단의 표본들은 정규분포를 따름

  • 등분산성: 각 집단은 동일한 분산을 가짐

  • 독립성: 각 집단은 서로에게 영향을 주지 않음

  • 분산분석을 통해 귀무가설을 기각할 경우 각 집단 사이의 차이를 알 수 없다(얼마나 다른지, 어느 집단 간 평균이 같은지 등등)
    -> Scheffe, Tukey, Duncan, Fisher's LSD, Dunnett, Donferroni 등의 사후검정 방법 사용

분산분석의 독립변수는 범주형 데이터, 종속변수는 연속형이어야 함

F-value: 집단 간 분산/집단 내 분산

집단 간 평균의 분산이 클수록 각 집단의 평균은 서로 멀리 위치함, 집단 간 차이의 비교에 사용할 수 있다.

SSE, SSR, SST

  • SST (Total Sum of Squares, 총변동합, 총제곱합): 데이터의 전체 변동량. 종속변수의 관측값과 표본의 평균의 차이(편차)를 제곱해 합한 값.
  • SSR (Regression Sum of Squares, 회귀제곱합): 모델이 설명할 수 있는 변동량. 표본평균과 종속변수값 중 독립변수에 의해 설명된 부분과의 차이를 제곱하여 합한 값.
  • SSE (Error Sum of Squares, 오차제곱합, 잔차제곱합): 모델이 설명하지 못하는 변동량(잔차, 오차). 잔차들이 자신의 표본평균으로부터 벗어난 편차의 제곱.
  • SST = SSR + SSE
  • SSR이 크고 SSE가 작을수록 좋은 모델이라고 할 수 있음

쟌차(Resiual): 예측값과 실제 값의 차이. 회귀분석에서 모델이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 오차. 잔차가 작을수록 모델이 데이터를 잘 예측한다고 볼 수 있다

일원분산분석

  • 셋 이상의 집단 간 평균을 비교하는 상황에서 하나의 집단에 속하는 독립변수와 종속변수 모두 하나일 때 사용하는 방법

이원분산분석

  • 독립변수의 수가 두 개 이상일 때 사용하는 방법
  • 독립변수 간 교호작용을 먼저 파악하고 두 가지 상황에 나누어 실험
    • 독립변수 간 교호작용이 있다고 판단될 때(두 독립변수가 독립이 아니다)->반복이 있는 실험
    • 독립변수 간 교호작용이 없다(두 독립변수가 독립이다)->반복이 없는 실험
  • 집단 간 평균 차이 검증 시 종속변수가 2개 이상이라면 다변량분산분석(다원분산분석) 수행

교차분석

범주형 자료(명목, 서열)간의 관계를 알아보고자 할 때 사용하는 분석방법
카이제곱 검정통계량 이용. 적합도 검정, 독립성 검정, 동질성 검정에 사용

  • 교차분석표: 두 범주형 변수를 교차하여 데이터의 빈도를 표 형태로 나타낸 것

적합도 검정

실험 결과로 얻은 관측값이 예상값과 일치하는지 여부를 검정하는 방법
모집단 분포에 대한 가정이 올바른지 관측값과 비교하여 검정하는 방법

  • 관측도수: 실험 데이터
  • 기대도수: 예측값
  • 두 값이 일치하면 실제 분포와 예측 분포 간 차이가 없다고 할 수 있음

적합도 검정의 유의수준은 보통 0.05로 설정
기각값은 카이제곱 분포표에서 유의수준 0.05일 때, 자유도(df) = 범주 수 -1에 해당하는 값

독립성 검정

  • 모집단이 두 개의 변수에 의해 범주화되었을 때 두 변수들 사이의 관계가 독립적인지 아닌지를 검정하는 것
  • 변수들 사이의 관계가 독립적이지 않다면->변수들 사이에 유의한 관계가 있다
  • 카이제곱 검정에 의한 독립성 검정 결과는 관계의 유무를 표현할 뿐, 관계의 강도를 판단할 수는 없음->상관분석을 실시해 수치로 판단할 수 있음

동질성 검정

  • 관측값들이 정해진 범주 내에서 서로 비슷하게 나타나고 있는지를 검증하는 것
  • 두 집단의 분포가 동일 모집단에서 추출된 것인지를 검정(부모집단별로 요인에 대한 차이가 있는지를 검정)
  • 교차표를 활용하고 계산과 검증법은 독립성 검정과 동일

중심극한정리

  • 표본 크기가 충분히 크면, 모집단의 분포가 무엇이든 표본 평균의 분포는 정규분포에 가까워진다
  • 표본 크기가 크다면 데이터가 정규분포를 따르지 않더라도 표본 평균의 분포는 정규분포에 수렴한다
  • 모집단의 분포를 몰라도, 표본 평군의 분포는 정규분포를 따르기 때문에 정규성 가정을 이용한 통계 분석이 가능해진다
  • 표본이 충분히 크면 신뢰구간과 가설검정에 활용할 수 있다.
  • 표본의 통계량으로 모집단의 모수를 측정할 수 있는 근거.
  • 모집단이 정규분포가 아니어도, 표본 크기를 키우면 평균의 분포는 정규분포가 된다...

상관분석

두 변수 간의 선형적 관계가 존재하는지 알아보는 분석 방법. 상관계수를 활용한다.

상관계수

  • -1~+1사이의 값을 갖는 계수
  • +1에 가까울수록 양의 강한 상관관계 -1에 가까울수록 음의 강한 상관관계. 0에 가까울수록 상관관계가 없다고 볼 수 있음
  • 변수 간의 상관관계가 있다는 것은 변수 간에 반드시 인과관계가 있다는 것으로 볼 수 없다. 상관관계가 있어도 인과관계가 없을 수 있음.

산점도 행렬

  • 여러 변수 간의 관계를 한눈에 파악할 수 있도록 만든 그래프
  • 여러 개의 산점도를 행렬 형태로 배치하여 모든 변수 쌍 간의 관계를 시각적으로 확인할 수 있음
  • 변수 간 상관관계 분석, 다변량 데이터에서의 변수 선택, 이상치 탐색에 유용한 그래프

상관분석의 귀무가설

  • 두 변수는 아무런 상관관계가 없다
  • 이에 대한 결과로 p-value가 유의수준보다 작다면 두 변수간의 유의한 상관관계가 있다고 판단할 수 있다(귀무가설 기각, 대립가설 채택)

상관분석의 종류

피어슨 상관분석(선형적 상관관계)

  • 두 변수 간의 선형 관계를 측정
  • 두 변수가 모두 정규분포를 따른다는 가정이 필요(두 변수가 정규분포를 따르는 연속형 데이터여야 함). 정규성 필요
  • 모수적 방법
  • 두 변수가 정확히 직선 관계(선형 관계)를 가질 때만 유용
cor(X, Y, method = 'pearson')

스피어만 상관분석(비선형적 상관관계)

  • 두 변수 간의 순위(서열) 관계를 측정
  • 비선형 관계도 측정 가능
  • 데이터가 정규성을 따르지 않아도 사용 가능.
  • 관측값의 순위에 대해 상관계수를 계산하는 방법
  • 비모수적 방법
cor(X, Y, method = 'spearman')

데이터가 정규분포를 따르고 선형이라면 -> 피어슨
비선형 관계이거나 이상치가 많다면->스피어만

회귀분석

하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추정하는 통계기법
최소제곱법을 통해 파라미터를 추정하고 추정된 파라미터를 통해 추세선을 그려 값을 예측한다

독립변수와 종속변수 간에 인과관계가 있다->독립변수가 원인이 되어 종속변수에 영향을 미친다

  • 독립변수==원인변수, 설명변수
  • 종속변수==결과변수, 반응변수
    산점도를 보아 일정한 추세선이 나타난다면 경향성을 가지거나 변수들 간에 인과관계가 존재한다고 추측해볼 수 있다

회귀분석의 적용

  • 변수가 연속형 변수일 때 적용
  • 범주형 변수일 경우 파생변수로 변환하여 사용
  • 종속변수가 범주형일 경우 로지스틱 회귀분석 사용
  • 독립변수가 1개->단순선형회귀분석
  • 독립변수가 2개 이상->다중선형회귀분석

회귀분석의 종류

  • 단순회귀: 1개의 독립변수와 종속변수가 선형관계(직선관계)
  • 다중회귀: k개의 독립변수와 종속변수가 선형관계
  • 다항회귀: 1개의 독립변수와 종속변수가 2차 함수 이상의 관계
  • 다중다항회귀: k개의 독립변수와 종속변수가 2차 함수 이상의 관계
  • 비선형회귀: 회귀식이 미지의 모수들과 선형관계가 아닌 경우(지수함수, 로그함수, 삼각함수 등)

회귀분석의 가정

  • 선형성: 독립변수와 종속변수가 선형적이어야 한다
    - 2차함수 회귀선을 갖는 다항회귀분석은 선형성을 갖지 않아도 됨
  • 독립성: 단순회귀분석에서는 잔차와 독립변수의 값이 서로 독립이어야 한다
    - 다중회귀분석(독립변수가 여러개)은 독립변수들 간에 상관성이 없이 독립이어야 한다
    • 다중공선성: 독립변수들 간 상관관계가 존재하는 경우-다중공선성을 제거하고 회귀분석 수행
  • 등분산성: 분산이 같음. 잔차들이 고르게 분포하고 있음. 잔차의 중심에서 분산이 같아야 함
    - 등분산성을 만족하지 못할 경우, 회귀선은 어떤 추세를 보이지 못함. 뭉친 형태
  • 정규성: 잔차항이 정규분포 형태를 보이는 것.
    - QQ Plot에서 잔차가 우상향하면 정규성을 만족한다고 판단
    • 히스토그램, QQ Plot을 활용하여 시각적으로 판단 가능. 샤피로 검정, 앤더슨-달링 검정, 하르케-베라 검정 등의 방법 사용

단순선형회귀분석

독립변수와 종속변수가 1개씩일 때 두 변수 사이의 인과관계를 분석하는 것
두 변수의 관계는 선형
최소제곱법을 활용해 실제 데이터와 오차가 가장 적은 직선의 방정식을 찾음

최소제곱법

  • 오차(실제 관측치와 추세선에 의해 예측된 점 사이의 거리)를 제곱해 더한 값을 최소화하는 것
  • 잔차의 제곱 합이 최소가 되는 추세선이 가장 합리적인 추세선

회귀분석모형의 적합성

회귀분석의 분산분석표

  • 회귀분석의 결과에 대한 모형 적합성 검증을 위해 사용하는 것
  • 독립변수가 1개라면 단순회귀분석, 2개 이상이라면 다중회귀분석 수행

단순선형회귀분석 분산분석표

요인제곱합 (SS)자유도 (df)제곱평균 (MS)F 값
회귀(Regression)SSR1MSR = SSR / 1F = MSR / MSE
잔차(Residual)SSEn - 2MSE = SSE / (n - 2)-
총(Total)SSTn - 1--

다중선형회귀분석 분산분석표

요인제곱합 (SS)자유도 (df)제곱평균 (MS)F 값
회귀(Regression)SSRpMSR = SSR / pF = MSR / MSE
잔차(Residual)SSEn - p - 1MSE = SSE / (n - p - 1)-
총(Total)SSTn - 1--

회귀모형의 통계적 유의성 검증

  • 회귀모형의 귀무가설은 '모든 회귀계수는 0이다'->F-검정을 통해 확인
  • F-검정: 분산의 차이를 확인할 수 있는 검정 방법. 분산의 차이가 크다->회귀계수가 크다
  • F-통계량(F값)이 크다-> 회귀계수가 크다->변수 간에 유의미한 인과관계가 존재한다
  • F값이 커지면 P값(F값이 0과 얼마나 가까운지 확률적으로 측정한 값)은 작아짐
  • P값이 회귀모형에서 0.05보다 작을 경우 유의미한 인과관계가 있다고 판단

**회귀계수의 통계적 유의성 검증)

  • t-검정으로 확인 가능
  • t-통계량: 회귀계수/표준오차
  • t-통계량이 크다->회귀계수가 크다(p값은 상대적으로 작다)->유의미한 인과관계가 있다

모형의 설명력

  • 데이터들의 분포가 회귀선에 밀접하게 분포한다
  • 회귀분석 결과를 분산분석하고 도출된 결정계수로 모형의 설명력을 판단할 수 있다
  • 결정계수가 1에 가깝다-> 데이터들이 회귀선에 매우 밀접하게 분포한다->회귀모형의 예측력이 높다. 회귀모형이 주어진 데이터를 잘 설명한다

결정계수(R^2)
= (회귀모형에 의해 설명되는 변동)/(총변동)
= SSR/SST = 1 - SSE/SST
= (전체 데이터들의 편차들을 제곱하여 합한 값)-(전체 데이터들의 잔차들을 제곱하여 합한 값)/(전체 데이터들의 편차들을 제곱하여 합한 값)

  • 결정계수는 회귀모델이 데이터를 얼마나 잘 설명하는지를 나타내는 지표이다.
  • 하지만 설명변수를 추가하면 항상 증가하는 문제가 있다(불필요한 변수를 추가해도 증가할 수 있다)
  • 모델이 무조건 좋아진다고 볼 수 없다
  • 이에 수정된 결정계수 개념이 나옴

수정된 결정계수(Adjusted R^2)

  • 자유도를 고려하여 불필요한 변수를 추가하면 값이 증가하지 않도록 보정한 값
  • 다중회귀분석에서는 수정된 결정계수를 사용함
  • 보통 결정계수보다 작게 계산된다

수정된 결정계수
= 1- (n-1)(1-수정계수)/(n-p-1) (n:표본의 크기, p=독립변수의 수)

단순선형회귀는 변수가 1개이기에 결정계수와 수정된 결정계수의 차이가 없다
다중선형회귀는 변수가 여러개이기에 수정된 결정계수를 사용해야 모델 성능 평가가 정확하다
다항회귀분석은 결정계수와 수정된 결정계수를 모두 참고할 수 있지만 그 차이가 크다면 AIC, BIC 같은 벌점이나 다른 지표를 참고해서 모델을 평가한다

다중선형회귀분석

독립변수가 2개 이상이고 종속변수가 하나일 때 사용하는 회귀분석
독립변수와 종속변수의 관계가 선형으로 나타남
독립변수가 여러개이므로 회귀계수도 여러개

다중공선성(Multicollinearity)

  • 회귀분석에서 독립변수 간에 강한 상관관계가 있는 경우 발생하는 문제
  • 회귀분석의 기본 가정인 독립성에 위배됨
  • 모델의 회귀계수 추정값이 불안정해지고 해석이 어려워짐

다중공선성의 진단

  • 결정계수 값이 커서 회귀식의 설명력은 높으나 각 독립변수의 p-value 값이 커서 개별 인자가 유의하지 않은 경우 의심
  • 독립변수 간의 상관관계를 구하고, 분산팽창요인(VIF)을 구한다
  • VIF가 10이 넘는다면 보통 다중공선성이 높다고 판단한다

VIF = 1/1-결정계수

다중공선성 문제의 해결

  • 다중공선성 문제가 발생하는 변수를 제거한다. = 상관관계가 높은 변수 중 하나를 제거. VIF 값이 높은 변수를 확인하여 제거한다.
  • 주성분분석(PCA)로 변수의 차원을 축소: 변수 간 상관관계를 반영하여 새로운 변수(주성분)를 생성하여 차원을 축소→ 다중공선성을 유발하는 원래 변수 대신 주성분 변수를 사용
  • R에서 Scree plot(스크리 산점도)를 사용해 주성분 개수를 선택
  • 선형판별분석(LDA)로 차원을 축소. LDA는 지도학습으로 데이터의 분포를 학습해 결정경계를 만들어 데이터를 분류함
  • t-분포 확률적 임베딩(t-SNE)으로 차원을 축소
  • 특잇값 분해(SVD)로 차원을 축소한다

최적 회귀방정식

종속변수에 유의미한 영향을 미칠 것으로 판단되는 독립변수를 선택하는 과정
1개의 반응변수를 설명하기 위한 여러개의 독립변수 후보들이 있을 때 반응변수를 가장 잘 설명할 수 있는 회귀식을 찾는 것이 목표

변수선택법

  • 결정계수를 활용한 변수선택법
  • 부분집합법: 모든 가능한 모델을 고려하여 가장 좋은 모델을 선택하는 방법
    - 변수가 많아질수록 검증해야 하는 회귀 분석도 많아진다
    • 변수의 개수가 적은 경우 높은 설명력을 가진 결과 도출에 효과적
    • 임베디드 기법이라고도 함. 라쏘, 릿지, 엘라스틱넷 등의 방법이 있음
  • 단계적 변수선택법: 일정한 단계를 거치면서 변수를 추가하거나 제거하는 방식으로 최적의 회귀방정식을 도출하는 방법
    - 전진선택법, 후진제거법, 단계선택법 등이 있음

변수선택법의 작동 원리에 따른 분류

  • 임베디드: 부분집합의 생성 및 선택 과정이 모형학습 과정에 포함되어 있음 C4.5, LASSO 등
  • 래퍼(Wrapper): 특정 모형의 성능 향상에 가장 이상적인 변수의 조합을 찾는 방법. 전진 선택법, 후진 제거법, 단계 선택법이 래퍼에 해당함. 다른 방법에 비해 정확도가 높으나 과적합 문제와 비용이 많이 드는 단점이 있음
  • 필터(Filter): 모형학습과 독립적으로 변수 집합 F에서 적합도 평가 지표를 이용해 기준 조건을 충족하는 변수를 선택해 부분 집합을 구성하는 방법. 평가 지표로 상관계수나 정보이론의 엔트로피를 이용. 래퍼 방법에 비해 성능이 다소 낮지만 계산 시간이 적고 과적합을 피할 수 있음

변수 선택에 사용하는 성능지표

벌점화(패널티) 방식-AIC, BIC

  • 회귀모형은 변수의 수가 증가할수록 편향은 작아지고 분산은 커지려는 경향이 있음
  • 변수의 수가 많아 복잡해진 모형에 벌점을 주어 최적 회귀방정식을 도출하는 방법
  • 벌점이 적은 회귀모형이 최적화된 회귀모형이라고 할 수 있음

AIC(Akaikee Information Criteria:아카이케 정보 기준)

  • 모델의 성능지표로서 MSE에 변수 수만큼 패널티를 주는 지표
  • 표본이 커질 때 부정확해짐

BIC(Bayes Information Criteria:베이즈 정보 기준)

  • AIC의 단점을 보완- 표본이 커질 경우 좀 더 정확한 결과가 나타남
  • 변수의 개수가 많을수록 AIC보다 더 큰 패널티를 준다
  • 변수의 개수가 적은 모형이 우선이라면 BIC를 참고한다

멜로우 Cp(Mallow's Cp)

  • Cp 값은 최소자승법으로 사용하여 추정된 회귀모형의 적합성을 평가하는 데 사용됨
  • Cp 값은 수정된 결정계수 및 AIC와 밀접한 관련이 있음
  • Cp 값은 모든 변수가 다 포함될 때 p 값과 같아짐. Cp값이 p값보다 클 때 나쁜 모델. Cp값이 최소한 p값보다 작을 때 좋은 모델이라 볼 수 있다

단계적 변수 선택법

전진선택법(forward selection)

  • 모든 독립변수 중 기준 통계치에 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가해가며 모형을 선택
  • p-value가 가장 작은 변수(설명력이 가장 높은 설명변수)부터 시작해 차차 추가해나감
  • 변수 개수가 많을 때 사용할 수 있으나 변수값이 조금만 변해도 결과에 큰 영향->안정성 부족
  • 상관계수의 절대값이 갖아 큰 변수에 대해 부분 F 검정으로 유의성 검정을 하고 더는 유의하지 않은 경우 변수를 더 추가하지 않음

후진제거법(backward elimination)

  • 독립변수를 모두 포함해 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법
  • 상관계수의 절대값이 가장 작은 변수에 대해 부분 f-검정 실시
  • 검정 결과가 가장 적은 영향을 주는 변수(p-value가 큰 변수)부터 하나씩 제거해나감
  • 전체 변수의 정보를 이용한다는 장점이 있으나 변수 개수가 너무 많은 경우 적용이 어려움

단계별 방법(stepwise method)

  • 전진선택법과 후진제거법의 보완책
  • 전진선택법에 의해 변수를 추가해나가면서 추가될 때 예상되는 벌점 값과 이미 추가된 변수가 제거될 때 예상되는 벌점 값이 가장 작도록 만들어나가는 방법

고급 회귀분석

정규화 선형회귀

과적합

  • 과대적합. 모델이 학습 데이터를 지나치게 학습하는 것.
  • 일반화 성능이 낮아져 이미 학습한 데이터에 대한 성능은 높게 나오나 학습하지 않은 데이터에 대한 성능이 낮게 나옴
  • 기존 학습 데이터에 모델이 너무 맞춰져서 새로운 데이터에 일반화하기 어렵기 때문

과소적합

  • 모델이 너무 단순해서 학습 데이터도 제대로 예측하지 못하는 경우

정규화 선형회귀

  • 회귀분석 시 과적합이 되면 계수의 크기도 과도하게 증가하는 경향이 있음. 이를 방지하기 위해 계수의 크기를 제한하는 방법
  • 제약 조건에 따라 릿지, 라쏘, 엘라스틱넷 회귀모형이 사용됨

정규화 선형회귀의 종류

라쏘(Lasso Regression)

  • L1 규제
  • 가중치들의 절댓값의 합을 최소화하는 것을 제약조건으로 추가함
  • 일정한 상숫값이 패널티로 부과되어 일부 불필요한 가중치 파라미터를 0으로 만들어 분석에서 아예 제외시킴
  • 몇 개의 의미 있는 변수만 분석에 포함시키고 싶을 때 효과적인 방법

릿지(Ridge Regression)

  • L2 규제
  • 가중치들의 제곱합을 최소화하는 것을 제약조건으로 추가함
  • 일부 가중치 파라미터를 제한하지만 완전히 0으로 만들지는 않고 0에 가깝게 만듦
  • 매우 크거나 작은 이상치의 가중치를 0에 가깝게 유도함->선형 모델의 일반화 성능을 개선하는 데사용

엘라스틱넷(Elastic Net)

  • 라쏘 + 릿지 결합 모델
  • 가중치의 절댓값의 합과 제곱합을 동시에 제약조건으로 가지는 모형

일반화 선형회귀(GLM, Generalized Linear Regression)

  • 회귀분석은 종속변수가 정규분포를 따른다는 정규성을 전제로 함. 하지만 종속변수가 범주형 자료이거나 정규성을 만족하지 못하는 경우에 수행하는 방법
  • 종속변수를 적절한 함수로 정의하고, 그 함수와 독립변수를 선형 결합하여 회귀분석을 수행

일반화 선형회귀의 구성요소

  • 확률요소: 종속변수의 확률분포를 규정하는 성분
  • 선형 예측자: 종속변수의 기대값을 정의하는 독립변수들 간의 선형 결합
  • 연결 함수: 확률 요소와 선형예측자를 연결하는 함수

일반화 선형회귀의 종류

로지스틱 회귀(Logistic regression)

  • 종속변수가 범주형 변수(0 또는 1, 합격/불합격 등)인 경우에 사용
  • 종속 변수와 독립 변수 간의 관계를 나타내어 예측 모델을 생성한다(=선형 회귀 분석)
  • 로지스틱 회귀는 선형 회귀처럼 입력변수(독립변수)와 출력변수(종속변수)의 관계를 학습하지만, 최종적으로 출력변수를 특점 범주로 분류하기 때문에 분류 분석 기법으로 간주된다.
  • 최종 결과가 범주(0/1)로 나오기에 분류 모델로 사용된다~

포아송 회귀(Poisson regression)

  • 종속변수가 특정 시간 동안 발생한 사건의 건수에 대한 도수 자료(음수가 아닌 정수)이면서 종속변수가 정규분포를 따르지 않거나 등분산성을 만족하지 못하는 경우 사용되는 회귀분석방법
  • 최대 가능도 추정(MLE, Maximum Likelihood Estimation)을 통해 모수를 추정함

더빈 왓슨 검정

오차항의 상관관계

오차항(Error Term): 회귀분석에서 실제값과 모델이 예측한 값의 차이를 나타내는 항. 모델이 설명하지 못하는 부분(무작위성, 노이즈). 회귀식이 완벽하지 않아서 생기는 차이

시계열 데이터: 시간의 흐름대로 나열된 데이터.

  • 오차항이 서로 상관관계를 갖는 경우는 대부분 시계열 데이터의 경우이다
  • 시계열 데이터는 연속적인 일련의 관측치들이 서로 상관되어 있음->하나의 잔차항의 크기가 이웃하는 다른 잔차항의 크기와 서로 일정한 관련이 있는데, 이를 자기상관성이라 함

자기상관성(Autocorrelation)

  • 어떤 변수의 값이 시간 또는 순서에 따라 일정한 패턴을 가지며 서로 상관관계를 갖는 현상
  • 이전 값과 현재 값이 서로 영향을 주는 경우
  • 잔차에 자기상관성이 있으면 회귀 분석이 부적절하다-선형 회귀의 가정 중 하나는 오차(잔차)가 서로 독립적이어야 한다는 것
  • 회귀분석에서의 오차항의 공분산은 0 (오차항이 서로 연관성이 없음)
  • 자기상관성이 있다면 회귀분석이 아닌 시계열 분석이나 다른 방법을 택해야 함

더빈 왓슨 검정

  • 회귀분석에 있어서 자기상관성이 존재하는지를 검정하는 방법
  • 더빈 왓슨 검정 통계량 값이 2에 가까울수록 오차항의 자기상관이 없다
  • 0에 가까우면 양의 상관관계, 4에 가까우면 음의 상관관계가 있다고 판단

다변량 분석

다차원 척도법(MDS, Multidimensional Scaling)

객체 간의 근접성을 시각화하는 통계 기법
객체 간의 유사성 혹은 비유사성을 측정하여 원래의 차원보다 낮은 차원의 공간에 군집분석처럼 점으로 표현함
데이터 축소가 목적
다차원 척도법에서 객체들 간의 거리는 유클리디안 거리행렬을 사용하여 계산함

다차원 척도법의 측도

  • 개체의 실제 거리와 모형에 의해 추정된 거리 사이의 적합도 측정을 위해 stress 척도를 사용함
  • stress값은 0~1사이로, 값이 낮을수록 적합도가 높다고 평가됨. 보통 0.05 이내일 경우 적합도가 좋다고 판단, 0.15 이상일 경우 적합도가 매우 나쁘다고 봄

주성분 분석(PCA, Principal Components Analysis)

여러 개의 변수 중 서로 상관성이 높은 변수들의 선형 결합으로 새로운 변수(주성분)을 만들어 기존의 변수를 요약, 축소하는 분석 방법

목적

  • 변수를 축소하여 모형의 설명력을 높임
  • 다중공선성 문제의 해결
  • 군집분석 시 모형의 성능 향상
  • IoT 센서 데이터를 주성분분석 후 스마트팩토리에 활용
  • 주성분분석 시 선형변환이 필요

주성분분석의 방법

  • 요약을 수행하는 만큼 데이터 손실이 발생할 수 밖에 없는데, 손실이 가장 작은 관점을 찾는다.
  • 데이터를 바라보는 다양한 관점 중 손실이 가장 작은 축을 찾음(자료의 분산이 가장 큰 축을 찾아 새로운 변수로 만든다)
  • 계산이 간단하고, 데이터 부족, 일률적 데이터, 정렬되지 않은 속성의 데이터도 처리할 수 있다는 장점
  • 고유값이 클수록 높은 설명력을 가짐
  • 평균 고유값 방법: 고유값들의 평균을 구하고 고유값이 평균보다 작은 값을 갖는 주성분을 제거하는 방법

고유값: 고유 벡터의 크기

시계열 분석

일정 시간 간격으로 기록된 자료들에 대해 특성을 파악하고 미래를 예측하는 분석 방법

개요

시계열 자료의 자기상관성

  • 하나의 잔차항의 크기가 이웃하는 다른 잔차항의 크기와 서로 일정한 관련이 있다는 것
  • 인접 자료들과 상호 연관성을 가진다는 것
  • 대부분의 시계열 자료는 자기상관성이 있기에 공분산은 0이 아님

공분산: 두 개의 확률변수의 흩어진 정도

정상성 시계열 자료, 비정상성 시계열 자료

  • 정상성 시계열 자료: 일정한 평균, 일정한 분산, 시차에만 의존하는 공분산 의 조건을 만족하는 시계열 자료
  • 시계열 분석을 위해서는 정상성 자료여야 함
  • 대부분의 시계열 데이터는 비정상정 시계열 자료로, 정상성 시계열 자료로의 변환이 필요하다

시계열 자료의 정상성 조건

일정한 평균

  • 모든 시점에 대해 평균이 일정해야 함. 아닐 경우 '차분'을 통해 정상화
  • 차분: 현 시점 자료 값에서 전 시점 자료 값을 빼는 것
    - 계절적 주기가 잇는 경우에는 여러 시점 전에 자료 값을 빼는 '계절차분' 사용

일정한 분산

  • 모든 시점에 대해 분산이 일정해야 함. 아닐 경우 '변환'을 통해 정상화
  • 자료 값에 지수 혹은 로그를 취해 변환해 시간에 따라 변하는 분산의 크기를 안정시킬 수 있음

공분산은 시차에만 의존

  • 공분산은 시차에만 의존한다. 특정 시점에 의존하지 않아야 함
  • t가 시점, s가 시차일 때 t시점과 t+s시점의 공분산 == t시점과 t-s시점의 공분산
  • 시차에 따라 공분산 값은 다를 수 있음

자기상관계수(ACF: Autocorrelation Function)

자기상관계수

  • 시간에 흐름에 따른 자기상관관계를 표현함
  • 자기상관함수: 특정 시점 t에서의 값과 t로부터 l만큼의 시차를 갖는 t+l 시점에서의 값의 상관계수(자기상관계수)를 나타내는 함수
  • 시계열 분석에서는 자기상관함수를 시계열 자료의 무작위성 판단에 사용한다(시간에 의존하지 않는지 판단, 무작위성이 없다면 시계열 분석으로 예측 가능)
  • 시차 l을 x축으로, 상관계수를 y축으로 하는 그래프로 표현했을 때 l=0일 때 자신과의 상관계수를 의미하며 항상 1로 나타남. 시차가 증가하면서 자기상관계수 값은 감소

**부분자기상관계수(PACF: Partial Autocorrelation Function)

  • 시점 t와 시차 l을 갖는 t+1시점 사이에 존재하는 l-1개의 자료값이 자기상관계수에 미치는 여향을 제거한 상관계수
  • 두 시계열 확률변수간에 다른 시점의 확률변수 영향력을 통제한 상관관계를 보여줌
  • 두 시계열 확률변수간의 상관관계를 판단할 때, 영향을 주는 요소를 제외하고 둘만의 상관관계를 고려할 때 부분자기상관계수 이용

분석 기법

이동평균법

  • 시계열 데이터에서 일정 기간별로 자료를 묶어 평균을 구하는 방법
  • 변동이 맣은 시계열 데이터의 평균을 구해 여러 요인으로 인한 변동을 제거할 수 있음
  • 장기적 추세 파악에 용이
  • 모든 시점에 대해 동일 가중치를 적용하기에 최근의 자료에 대한 가중치는 특별히 고려되지 않는다

지수평활법

  • 최근 자료에 과거 자료보다 더 큰 가중치를 적용해 평균을 계산
  • 자료의 수가 많고 안정된 패턴을 보이는 경우 예측 품질이 높음
  • 불규칙변동의 영향을 제거할 수 있음->중장기 예측에 주로 사용

시계열 모형

자기회귀모형(AR, Autoregressive Model)

  • 과거 데이터를 이용하여 현재 값을 예측하는 모델
  • 현재 값이 과거 값들의 선형 조합으로 표현됨
  • 특정 시점 t로부터 k번째 이전 시점들은 각각 다른 가중치 값을 가짐

  • 적절한 p을 값을 결정하기 위해서 부분자기상관함수를 사용함

백색잡음: 현시점이 이전시점과 상관관계가 존재하지 않는, 공분산과 자기공분산이 0인 시계열 자료
정규분포를 따르는 백색잡음을 '가우시안 백색잡음'이라 함'
' 평균이 0인 경우 시계열 모형에서 오차항이 될 수 있음

이동평균모형(MA, Moving Average Model)

  • 과거의 오차(백색 잡음)들의 선형 조합으로 현재 값을 예측하는 모델
  • 백색잡음들의 선형 결합으로 이루어져있음->항상 정상성을 만족

  • 적절한 q 값 설정을 위해 자기상관함수를 사용함

자기회귀누적이동평균모형 (ARIMA, Autoregressive Integrated Moving Average)

  • AR(자기회귀) + I(차분) + MA(이동평균)를 결합한 시계열 분석 모델
  • 비정상 시계열 데이터를 다룰 수 있는 모형. 차분이나 변환을 통해 정상화할 수 있음

분해 시계열

  • 시계열은 추세요인, 계절요인, 순환요인, 불규칙 요인 등으로 구성됨
  • 분해 시계열: 분석 목적에 따라 특정 요인만 분리해 분석하거나 제거하는 작업

시계열의 구성 요소

  • 추세요인: 장기간 일정한 방향으로 상승/하락하는 경향을 보이는 요인. 급격한 충격이 없는 한 지속됨
  • 순환요인: 정확이 알려진 이유가 없고, 주기가 일정하지 않은 변동. 추세선을 따라 상하 반복운동을 하는 형태로 나타남
  • 계절요인: 일정한 주기를 가지는 상하반복의 규칙적인 변동. 순환요인보다 주기가 짧음
  • 불규칙요인: 위의 세 가지 요인 어디에도 속하지 않는 오차에 해당하는 요인. 규칙성 없이 우연히 발생하는 예측 불가능한 변동

데이터가 단순하면 AR, MA를 사용
더 복잡한 패턴 분석 시 ARIMA, 분해 시계열 사용

profile
고민고민고민

0개의 댓글