+)Missing Value 처리 방법&model(시계열 중심으로)

min·2022년 10월 4일
0

MA(이동평균)

시간적으로 연속하는 일정기간 동안의 관측치들의 평균
일부 데이터에 많은 비중을 두고 계산하는 것. 연속된 숫자에 따라 계산해서 이후를 예측하는 방법

EWMA(지수 가중 이동평균)

변동성 계산할 때 한 시점 전의 변동성 고려해서 최근 변동치에 가중치를 더 두어서 계산하는 방법
경제 가격 그래프에서 많이 쓰임. 변동성은 항상 똑같지 않고 시시각각 변하기 때문에 과거 가격을 가지고 변동성을 산출해낼 때 최근 시황을 잘 반영해야 함.

행렬 기반 기법-행렬분해(Matrix Factorization, MF)

TRMP(Temperal Regularized Matrix Factorization)

결측값이 있는 고차원 시계열 데이터에 매우 적합, 확장 가능한 행렬 분해 사용
시간의 종속성 모델링, 데이터 기반 종속성 특징도 학습. 우수한 결과 도출.

PSMF(Probabilistic Sequential Matrix Factorization)

고차원 시계열로 구성된 시변량 및 비정상성 데이터 세트 분해하기 위한 기법
일반적인 미분 가능한 비선형 부분적 공간 모델을 보정하고 추정하는 결측치 처리 방법

regression

시계열이 정상 시계열이라면 ARMA(자기회귀이동평균) 모형, STAR(공간시계열자기회귀) 모형

ARIMA

LATC(Low-Rank AutoRegressive Tensor Completion)

AR 모형 발전시킨 형태. 다변량 시계열 데이터를 3차원의 텐서 형태로 변환. 시간, 계절성, 다변량 변수 3가지 기준으로 고려. 기존의 단순한 AR 모델과 달리 데이터의 변환과 다변량 처리 기법을 통하여 결측값을 처리하는 것으로 기존보다 높은 성능을 보임.

RNN(deep learning)

다변량 변수를 이용한 결측치 대치에 많이 사용되고, 최근에는 불규칙한 시계열 데이터의 결측 상황에도 적용 가능한 방법들에 대한 연구 진행.

GAN

입력 데이터의 확률적 분포를 알아내고 학습하여 데이터를 생성하는 것이 목적

선형보간법

이미 구해진 데이터들로부터 t시점과 t+1 시점 사이의 값 유추

비선형보간법

비선형함수를 근사 함수로 사용

스플라인(spline)보간법

전체 구간 근사가 아닌 소구간을 분할하여 보간함.

누락된 값이 너무 많은 경우 사용 불가. 이 경우 모델링 통해 해당 부분을 예측해야 한다. GAN에 기반한 시계열 생성 알고리즘으로 채우고자 함.

R Package(시계열 자료에서 쓰이는)

MICE

MissForest

비모수적방법, 시간 많이 소요.
혼합 유형 데이터의 경우 누락 된 값을 암시하는 데 사용
데이터 행렬의 관측된 값에 대해 학습된 임의 포리스트를 사용하여 누락된 값을 예측
복잡한 상호 작용 및 비선형 관계를 포함한 연속 및 범주 적 데이터를 암시하는 데 사용

Amelia

single cross-section(예: 설문 조사), 시계열(예: 한 국가에서 매년 수집된 변수) 또는 시계열 횡단면 데이터 집합(예: 여러 국가의 연도별로 수집됨)에서 누락된 데이터를 "multiply impute"하는 도구

ImputeTS

일변량, 등간격, 수치형 시계열에 대한 다향한 도구 제공
단일 시계열 모델 사용

DTWBI

DTW을 이용하여 단일 시계열에서 발생한 결측값을 대치하는 방법
두 시점 사이 최적(최소누적거리) 계산

https://www.brightics.ai/kr/docs/ai/manual/tutorial/b19f13b94cc87c33.html#aba1f64067b2b96e

시계열 데이터 결측치 처리 기술 동향
https://ettrends.etri.re.kr/ettrends/191/0905191014/0905191014.html#!po=5.55556

공간시계열모형의 결측치 추정방법 비교
https://scienceon.kisti.re.kr/commons/util/originalView.do?cn=JAKO201020439057899&dbt=JAKO&koi=KISTI1.1003%2FJNL.JAKO201020439057899

특성도를 이용한 결측치 대체방법
https://scienceon.kisti.re.kr/commons/util/originalView.do?cn=JAKO201720861241717&oCn=JAKO201720861241717&dbt=JAKO&journal=NJOU00025585&keyword=%EA%B2%B0%EC%B8%A1%EC%B9%98

시계열 데이터에서 전처리하는 방법
https://ok-lab.tistory.com/189

미세먼지 자료에서의 결측치 대체 방법 비교
https://scienceon.kisti.re.kr/commons/util/originalView.do?cn=JAKO201919163740737&oCn=JAKO201919163740737&dbt=JAKO&journal=NJOU00568345

0개의 댓글