통계 (5)

MSMoon·2025년 4월 11일

데이터 이론 학습

목록 보기

5/27

Chapter2 기초통계_심화과정

9) 분산분석

1. 분산 분석

분산분석(analysis of variance): 셋 이상의 모집단의 평균 차이를 검정
t-test: 두개의 모집단의 평균 차이를 검정
실험계획법(experimental design): 모집단의 특성에 대하여 추론하기 위해 특별한 목적성을 가지고 데이터를 수집하기 위한 실험 설계
반응 변수: 관심의 대상이 되는 변수
요인/인자(factor): 실험환경 또는 조건을 구분하는 변수로 실험에 영향을 주는 변수
인자수준: 인자가 취하는 개별 값
분산분석을 사용하는 이유
-> 모집단의 평균들을 비교하기 위하여 특성값의 분산 또는 변동을 분석
-> 실험을 통해 얻은 편차의 제곱합을 통해 평균의 차이를 검정
분산분석의 기본 가정
-> 각 모집단은 정규 분포를 따른다
-> 각 모집단은 동일한 분산을 갖는다
-> 각 표본은 독립적으로 추출되었다

분산분석의 가설과 실험의 가정

가설: $H_0$ : 각 집단의 평균은 동일하다, $H_1$ : 각 집단의 평균에 차이가 있다
실험의 가정
-> 반복의 원리: 실험을 반복해서 실행해야 함
-> 랜덤화의 원리: 각 실험의 순서를 무작위로 해야함
-> 블록화의 원리: 제어해야 할 변수가 있다면 인자에 영향을 받지 않도록 조건을 묶어서 실험해야 함
일원 분산분석: 한 가지 요인을 기준으로 집단간의 차이를 조사하는 것
이원 분산분석: 두 가지 요인을 기준으로 집단 간의 차이를 조사하는 것
다원 분산분석: 세 가지 이상의 요인을 기준으로 집단 간의 차이를 조사하는 것

2. One-way ANOVA

한 개의 반응 변수와 한 개의 독립 인자
반응 변수: 연속형 변수만 가능
독립 인자(변수): 이산형 또는 범주형 변수만 가능
가설 : $H_0: \mu_1 = \mu_2 = \cdots = \mu_k$ , $H_1$ : 적어도 하나 이상의 평균이 같지 않다
검정통계량 : $F = \frac{MSR}{MSE}$ ,귀무가설 하에서 $F$ 의 관측값: $f_0$

기각역 (유의수준 $\alpha$ ): $f_0 \geq F_\alpha(k - 1, N - k)$ 이면 $H_0$ 를 기각
유의확률 ( $p$ 값): $F \sim F(k - 1, N - k)$ 일 때, $p\text{-value} = P(F \geq f_0)$ 이고, $p$ 값이 $\alpha$ 보다 작으면 $H_0$ 를 기각
사후 검정: 평균이 다른건 알지만 어떤 처리 조건이 평균 차이가 있는지 알고 싶을 때
-> Bonferroni, scheffe, Duncan, Dunnett 등의 방법으로 사후 검정 가능

3. Two-Way ANOVA

한개의 반응 변수와 두 개의 독립 인자로 분석하는 방법
독립인자는 이산형 또는 범주형 변수만 가능
상호작용: 한 독립 변수의 main effect가 다른 독립변수의 level에 따라서 원래의 선형 관계를 비선형 관계로 변하게 하는 경우
가설
-> 첫 번째 main effect 가설: $H_0: \mu_{11} = \mu_{12} = \cdots = \mu_{1k} \quad \text{vs} \quad H_1$ : 적어도 하나 이상의 평균이 같지 않다 ( $k$ : 그룹의 개수)
-> 두 번째 main effect 가설: $H_0: \mu_{21} = \mu_{22} = \cdots = \mu_{2k} \quad \text{vs} \quad H_1$ : 적어도 하나 이상의 평균이 같지 않다
-> 상호작용에 대한 가설: $H_0$ : 교호작용이 없다 vs $H_1$ : 교호작용이 있다

10) 시계열

1. 시계열 분석

시계열분석(time series analysis): 시계열 자료를 분석하고 여러 변수들간의 인과관계를 분석하는 방법
시계열 데이터: 시간을 기준으로 관측된 데이터로, 일->주->얼->분기->년 또는 Hour 등 시간의 경과에 따라서 관측한 데이터
연속 시계열: 자료가 연속적으로 생성
이산형 시계열: 일정 시차를 두고 관측되는 형태의 데이터
시계열 분석의 목적: 금융시장 예측, 수요 예측 등 미래의 특정 시점에 대한 관심의 대상을 예측
시계열 특성 파악: 경향, 주기, 계절성, 변동성 등의 관측치의 시계열 특성 파악
전통적인 시계열 분석 방법
-> 이동 평균 모형(moving average): 최근 데이터의 평균을 예측치로 사용하는 방법
-> 자기 평균 모형(Autocorrelation): 변수의 과거 값의 선형 조합을 이용하여 예측하는 방법
-> ARIMA(Autoregressive Integrated Moving Average): 관측값과 오차를 사용해서 모형을 만들어서 미래를 예측하는 방법
-> 지수평활법: 현재에 가까운 시점에 가장 많은 가중치 주고 멀어질수록 낮은 가중치를 주어서 미래를 예측하는 방법
시계열 요소
경향/추세: 시계열 데이터가 장기적으로 증가(감소)할 때, 추세가 존재함
계절성(seasonality): 특정기간 어떤 특정한 때나 1주일마다 특정 요일에 나타나는 것 같은 계절성 요인이 시계열에 영향을 주는 것
주기성: 일정한 주기마다 유사한 변동이 반복되는 현상, 보통 경기 순환과 관련이 있으며 지속기간은 2년
불규칙요인(Irregualr movements): 예측하거나 제어할 수 없는 요소
-> 회귀분석의 오차와 같은 것
시계열 분석 방법
이동평균법
-> 단순이동평균: $\overline{Y}_{t,m} = \frac{y_t + y_{t-1} + \cdots + y_{t - m + 1}}{m}$
지수평활법: 모든 관측값을 이용하면서 예측하는 시점에 가까울수록 비중을 두어 최근값이 예측 시 더 많은 기여를 하도록 만드는 방법
-> $F_{t+1} = wF_t + (1 - w)F_{t-1}, \quad t \geq 2$ (w는 지수평활계수)