[Article] The prevention and handling of the missing data

YoungHyo Choi·2021년 4월 17일
0

Article

목록 보기
1/2

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3668100/

Abstract

Missing data는 어느 연구에서나 나오고, 연구에서의 통계학적인 힘을 감소시킨다. 이는 잘못된 결론으로 이어질 수 있다.

Keywords : Expectation-Maximization, Imputation, Missing data, Sensitivity analysis

Missing data의 문제

  1. Missing data는 통계적인 주장을 약화시키고, 가설이 검증되지 않을 수 있다.
  2. parameter들의 bias를 야기할 수 있다.
  3. Missing data가 데이터 샘플의 대표 데이터일 수 있다.
  4. 연구에 방해된다.

Types of Missing Data

  1. Missing completely at random
  2. Missing at random
  3. Missing not at random

Missing completely at random (MCAR)

  • 발견된 관측치로부터 데이터들 사이에 어떤 연관도 없는 데이터 를 말한다.
  • 하지만 현실에서는 불가능한 가정
  • 데이터 수집시에 장비의 부족이나 기술적인 문제로 인해 Missing data가 발생했을 경우도 MCAR로 판단한다.
  • MCAR의 통계학적인 이점으로는 Missing data로 인한 parameter가 bias되지 않는다는 점이다.

Missing at random (MAR)

  • 관측된 데이터와 연관이 되어있지만 기대되는 관측치에는 연관되어 있지 않은 Missing data
  • 마취학 연구 분야에서 가장 현실적인 가정
  • MAR이 어떤 문제를 야기하지는 않지만, 무시해도 되는 데이터 또한 아니다.

Missing not at random (MNAR)

  • MCAR과 MAR 둘 다 아닌 Missing data
  • 문제가 있는 경우인데, unbiased된 parameter를 얻는 방법은 결측치를 모델링하는 방법이다.
  • 이 경우 모델은 Missing data를 예측하는 과정까지 포함해야하기 때문에 복잡해진다.

Techniques for Handling the Missing Data

  1. Listwise or case deletion
  2. Pairwise deletion
  3. Mean substitution
  4. Regression imputation
  5. Last observation carried forward
  6. Maximum likelihood
  7. Expectation-Maximization
  8. Multiple imputation
  9. Sensitivity analysis

Listwise or case deletion

  • Missing data를 제거하고 남은 데이터를 가지고 분석하는 방법
  • missing data를 처리하는 가장 흔한 방법이다.
  • 이 방법이 biased한 parameter 측정 방식이 될 수 있다고 주장하는 사람도 있지만, MCAR 가정만 만족된다면 unbiased한 측정이 된다.
  • MCAR 가정을 만족하지 않는다면 bias한 측정이 될 수 있다.

Pairwise deletion

  • 어떤 가정에 대해서 테스트가 필요한 특정 data-point만 Missing data일 경우, 데이터를 제거하는 방법

  • Missing data가 존재할 경우, 존재하는 데이터를 통해 통계학적인 테스트를 진행한다.

  • 일반적으로 모든 데이터를 사용하기 때문에, Missing data를 완전히 삭제하는 Listwise deletion 방법보다 많은 정보를 보존할 수 있다.

  • 이 방법을 통해서 발생할 수 있는 문제

    1. the parameters of the model will stand on different sets of data with different statistics, such as the sample size and standard erros
    2. 더 나은 분석을 향한 긍정적인 방향이 아닌 intercorrelation matrix를 생성
  • MCAR과 MAR 데이터에 대해서 덜 biased되는 경향이 있다.

  • 너무 많은 Missing data가 존재할 경우, 분석이 약해진다.

Mean substitution

  • Missing data에 대해서 해당 변수의 평균치로 Missing data를 대체하는 방법
  • 불완전하게 수집된 데이터셋을 활용하는 연구자들이 활용할 수 있는 방법
  • 이론적 배경 : 정규 분포를 띄는 랜덤한 관측치에서는 평균이 가장 합리적인 추정치이다.
  • Missing data가 완벽하게 무작위가 아니고 다른 변수에서 많은 수의 Missing data가 불균형하다면 잘못된 bias가 도출될 수 있다.
    (데이터 분포에 관련?)
  • 샘플 사이즈를 증가시킬 때 새로운 정보를 얻을 수 없고, 과소추정하는 에러를 발생시킨다.
  • 일반적으로 사용하는 방법은 아니다.

Regression imputation

  • Imputation : Missing data를 추정치로 대체하는 과정
  • 데이터를 삭제하는 것보다 다른 값으로 대체하는 것이기 때문에 모든 경우에 대한 결과를 유지할 수 있다.
  • 모든 Missing data가 imputation 되고 나면, 일반적인 분석 방법을 적용할 수 있다.
  • 데이터가 있는 변수를 Missing data 예측에 사용하고, 예측치는 관측치로 변경된다.
  • Mean subtitution과 마찬가지로 다른 변수를 통해 예측한 어떤 값을 사용하는 것이기 때문에 새로운 정보가 추가되지는 않는다.
    (1. 없는 데이터를 예측해서 메꾸는 방법인데 새로운 정보(novel information)이 추가될 필요가 있나?)
    (2. 여기서 대체한다는 것은 아예 새로운 데이터를 생성하는 것을 의미?
    while the sample size has been increased and the standard error is reduces.)

Last observation carried forward (LOCF)

  • anesthesioloty(마취학) 연구와 같이 시간 흐름에 따라 같은 값이 반복되는 시계열(time-series)적인 접근을 할 때 사용
  • 모든 Missing data를 마지막에 관측된 값으로 대체하는 방법
  • 통계학자, 임상의 와 투자자들과의 커뮤니케이션에서 이해를 돕는 방법이다.
  • 덜 중요하고 간단한 imputation에서의 사용을 권장한다.

Maximum likelihood

  • Missing data를 처리하는 많은 maximum likelihood 방법이 있다.
  • In these, the assumption that the observed data are a sample drawn from a multivariate normal distribution is relatively easy to understand.
  • 사용 가능한 데이터로부터 parameter 추정을 진행하고, parameter를 기반으로 missing data를 추정한다.
  • Missing value는 있지만 상대적으로 완벽한 데이터라면, 변수들간의 관계에 대한 통계적인 설명은 maximum likelihood method를 사용해서 계산된다.
  • 따라서 Missing data는 다른 변수들의 conditional distribution에 의해서 추정된다.

Expectation-Maximization (EM)

  • maximum likelihood method를 통해 imputation을 진행하고, 새로운 데이터셋을 생성하는 maximum likelihood 방법의 한 종류다.
  • expectation step, parameter 추정 과정에서 이러한 접근법을 사용한다.
    (expectation step이 뭘까..)
  • regression을 사용해서 Missing data를 예측하고, 새로운 parameter 예측을 반복하는 방법

Multiple imputation

  • Missing data를 타당한 값의 집합으로 대체하는 방법

  • 값이 존재하는 다른 변수로부터 Missing data를 예측하는 방법

    1. Missing value를 예측해 imputated된 전체 데이터셋을 생성한다.
    2. 이 과정을 반복해서 다수의 imputated data sets를 생성 (That's why called "Multiple imputation")
    3. 각각의 imputated data set을 통계적으로 분석하고, 분석한 결과들을 취합해 하나의 결론을 내린다.
  • Missing value에 대한 다양성을 확인할 수 있는 장점이 있다.

Sensitivity analysis

  • 어떻게 모델 output의 불확실성이 불확실한 input에 대해서 할당되는지에 대한 연구 방법
profile
golang과 elasticsearch를 좋아하는 3년차 백엔드 엔지니어입니다.

0개의 댓글