통계 (5)

MSMoon·2025년 4월 11일
0

데이터 이론 학습

목록 보기
5/27
post-thumbnail

Chapter2 기초통계_심화과정

9) 분산분석

1. 분산 분석

  • 분산분석(analysis of variance): 셋 이상의 모집단의 평균 차이를 검정

  • t-test: 두개의 모집단의 평균 차이를 검정

  • 실험계획법(experimental design): 모집단의 특성에 대하여 추론하기 위해 특별한 목적성을 가지고 데이터를 수집하기 위한 실험 설계

  • 반응 변수: 관심의 대상이 되는 변수

  • 요인/인자(factor): 실험환경 또는 조건을 구분하는 변수로 실험에 영향을 주는 변수

  • 인자수준: 인자가 취하는 개별 값

  • 분산분석을 사용하는 이유
    -> 모집단의 평균들을 비교하기 위하여 특성값의 분산 또는 변동을 분석
    -> 실험을 통해 얻은 편차의 제곱합을 통해 평균의 차이를 검정

  • 분산분석의 기본 가정
    -> 각 모집단은 정규 분포를 따른다
    -> 각 모집단은 동일한 분산을 갖는다
    -> 각 표본은 독립적으로 추출되었다

분산분석의 가설과 실험의 가정

  • 가설: H0H_0: 각 집단의 평균은 동일하다, H1H_1: 각 집단의 평균에 차이가 있다

  • 실험의 가정
    -> 반복의 원리: 실험을 반복해서 실행해야 함
    -> 랜덤화의 원리: 각 실험의 순서를 무작위로 해야함
    -> 블록화의 원리: 제어해야 할 변수가 있다면 인자에 영향을 받지 않도록 조건을 묶어서 실험해야 함

  • 일원 분산분석: 한 가지 요인을 기준으로 집단간의 차이를 조사하는 것

  • 이원 분산분석: 두 가지 요인을 기준으로 집단 간의 차이를 조사하는 것

  • 다원 분산분석: 세 가지 이상의 요인을 기준으로 집단 간의 차이를 조사하는 것

2. One-way ANOVA

  • 한 개의 반응 변수와 한 개의 독립 인자

  • 반응 변수: 연속형 변수만 가능

  • 독립 인자(변수): 이산형 또는 범주형 변수만 가능

  • 가설 : H0:μ1=μ2==μkH_0: \mu_1 = \mu_2 = \cdots = \mu_k, H1H_1: 적어도 하나 이상의 평균이 같지 않다

  • 검정통계량 : F=MSRMSEF = \frac{MSR}{MSE} ,귀무가설 하에서 FF의 관측값: f0f_0

  • 기각역 (유의수준 α\alpha): f0Fα(k1,Nk)f_0 \geq F_\alpha(k - 1, N - k) 이면 H0H_0를 기각

  • 유의확률 (pp값): FF(k1,Nk)F \sim F(k - 1, N - k)일 때, p-value=P(Ff0)p\text{-value} = P(F \geq f_0)이고, pp값이 α\alpha보다 작으면 H0H_0를 기각

  • 사후 검정: 평균이 다른건 알지만 어떤 처리 조건이 평균 차이가 있는지 알고 싶을 때
    -> Bonferroni, scheffe, Duncan, Dunnett 등의 방법으로 사후 검정 가능

3. Two-Way ANOVA

  • 한개의 반응 변수와 두 개의 독립 인자로 분석하는 방법

  • 독립인자는 이산형 또는 범주형 변수만 가능

  • 상호작용: 한 독립 변수의 main effect가 다른 독립변수의 level에 따라서 원래의 선형 관계를 비선형 관계로 변하게 하는 경우

  • 가설
    -> 첫 번째 main effect 가설: H0:μ11=μ12==μ1kvsH1H_0: \mu_{11} = \mu_{12} = \cdots = \mu_{1k} \quad \text{vs} \quad H_1: 적어도 하나 이상의 평균이 같지 않다 (kk: 그룹의 개수)
    -> 두 번째 main effect 가설: H0:μ21=μ22==μ2kvsH1H_0: \mu_{21} = \mu_{22} = \cdots = \mu_{2k} \quad \text{vs} \quad H_1: 적어도 하나 이상의 평균이 같지 않다
    -> 상호작용에 대한 가설: H0H_0: 교호작용이 없다 vs H1H_1: 교호작용이 있다

10) 시계열

1. 시계열 분석

  • 시계열분석(time series analysis): 시계열 자료를 분석하고 여러 변수들간의 인과관계를 분석하는 방법

  • 시계열 데이터: 시간을 기준으로 관측된 데이터로, 일->주->얼->분기->년 또는 Hour 등 시간의 경과에 따라서 관측한 데이터

  • 연속 시계열: 자료가 연속적으로 생성

  • 이산형 시계열: 일정 시차를 두고 관측되는 형태의 데이터

  • 시계열 분석의 목적: 금융시장 예측, 수요 예측 등 미래의 특정 시점에 대한 관심의 대상을 예측

  • 시계열 특성 파악: 경향, 주기, 계절성, 변동성 등의 관측치의 시계열 특성 파악

  • 전통적인 시계열 분석 방법
    -> 이동 평균 모형(moving average): 최근 데이터의 평균을 예측치로 사용하는 방법
    -> 자기 평균 모형(Autocorrelation): 변수의 과거 값의 선형 조합을 이용하여 예측하는 방법
    -> ARIMA(Autoregressive Integrated Moving Average): 관측값과 오차를 사용해서 모형을 만들어서 미래를 예측하는 방법
    -> 지수평활법: 현재에 가까운 시점에 가장 많은 가중치 주고 멀어질수록 낮은 가중치를 주어서 미래를 예측하는 방법

  • 시계열 요소

  • 경향/추세: 시계열 데이터가 장기적으로 증가(감소)할 때, 추세가 존재함

  • 계절성(seasonality): 특정기간 어떤 특정한 때나 1주일마다 특정 요일에 나타나는 것 같은 계절성 요인이 시계열에 영향을 주는 것

  • 주기성: 일정한 주기마다 유사한 변동이 반복되는 현상, 보통 경기 순환과 관련이 있으며 지속기간은 2년

  • 불규칙요인(Irregualr movements): 예측하거나 제어할 수 없는 요소
    -> 회귀분석의 오차와 같은 것

  • 시계열 분석 방법

  • 이동평균법
    -> 단순이동평균: Yt,m=yt+yt1++ytm+1m\overline{Y}_{t,m} = \frac{y_t + y_{t-1} + \cdots + y_{t - m + 1}}{m}

  • 지수평활법: 모든 관측값을 이용하면서 예측하는 시점에 가까울수록 비중을 두어 최근값이 예측 시 더 많은 기여를 하도록 만드는 방법
    -> Ft+1=wFt+(1w)Ft1,t2F_{t+1} = wF_t + (1 - w)F_{t-1}, \quad t \geq 2 (w는 지수평활계수)

이 글은 제로베이스 강의 자료 일부를 발췌하여 작성되었습니다

0개의 댓글