[논문리뷰]Forecasting of COVID-19: transmission models and beyond

temp·2021년 8월 2일
0

※ 원 글 작성일 : 2020-08-23

Paper: Forecasting of COVID-19: transmission models and beyond

0. Abstract

4월 7일, 약 130만 건의 확진이 전세계에 걸쳐 일어났고, 그 중 7만 4천명 가량이 사망하였다. 그렇기 때문에, 전염 특성과 동역학을 이해하는 것은 중요해졌다. 이러한 연구를 위한 가장 흔한 모델로 SEIR모델이 존재하는데, 이는 기본적으로 Closed system(인구의 출입이 없다)이라 가정하며 전염률이 상수, 즉 일정하다고 가정한다. 당연하게도 전통적인 SEIR모델은 COVID-19의 전염 역학을 기술하는데 한계를 가지기 마련이다.
명절연휴기간동안 수 억명의 인구이동이 일어나기 때문에, 이러한 이동 정보(Mobility information)이 모델 안에 기술되어야 함은 물론이고(한국 대상으로 한다면, 이번 여름 연휴기간 정도를 고려) 당국의 강력한 억제 정책 또한 고려되어야 한다.

1. Modified SEIR Model

본 논문 은 명절 연휴기간동안 인구의 이동을 기술하기 위해 parameter를 추가했는데, 이는 S,E 집단을 system 내 외로 출,입 하는 개인들 까지 관련지었다. 또한, Wuhan과 다른 지역의 Transportation information는 Baidu qianxi index를 통하여 추출했다. 즉, 정보의 여러 소스를 이용하여 관련 parameter를 모델에 추가하는 방식은 많은 연구에서도 채택되었다고 볼 수 있는데, 이는 다른 연구에서 Official Aviation Guide로부터 공중수송(Air transportation)정보를 얻어 모델에 도입한 것으로부터 찾아볼 수 있다.

  • 즉, 여러 변수들을 설정하고, 그에 대한 Source를 어디서 얻을지도 꼭 고려해야 한다. 이는, publicly available datasets으로부터 얻을 수 있다

또한, 확률론적 전이 동역학 연구에도 마찬가지로 공적인 데이터가 쓰였다. Global Epidemic and Mobility Model(GLEAM)모델을 사용했는데, 이는 개인기반, 확률론적, 공간적 모델이며 국제적인 코로나 확산 모델링을 위해 Real transportation data를 사용하여 3200개의 소집단 사이의 여행자 흐름을 흉내내는 방법을 사용하였다.

Pan et al.의 연구에서는 Wuhan내 전염병에 대해서, 다른 정도의 개입정책으로 특성화되는 각기 다른 국면에서의 R0값을 서로 다르게 설정하여 연구를 묘사하였다.

Yang et al도 마찬가지로 r(t)라는 parameter값을 추가하여 하루에 한 명이 접촉하는 사람수를 나타내도록 하였다.(시간에 따라 변하게끔)

또한 Wei et al의 연구에는, SEIR+CAQ 모델(전이 방식과 감염 프로필, 격리 정책 들을 고려)을 도입하였다.

이 논문에서는, 개입이 없는 시기에는 r(t)값을 15로, 강력한 정책이 일어나던 시기의 r(t)값은 3으로, 완화정책을 펼치던 시기의 r(t)값을 10으로 설정하였다. 이러한 정확한 r(t)값의 설정은, 개입 정책의 효과와 여행, 공공장소 집합 규제 등의 변수를 효율적으로 고려할 수 있게 해준다.
(세부적인 r(t)값의 설정이 필요, 내가 제일 신경써야 할 부분이며 이를 위해 기본적인 데이터 분석 툴의 숙지가 요구된다.)

dynamic model의 적용과 한계

고려할 것 : 개입 정책, 바이러스의 빠른 변이, 진단과 치료의 수용력, COVID-19의 이해

위처럼 많은 변수들 때문에 대해서 미래를 예측하는건 거의 불가능하다. (예를들어, 중국의 보건당국이 2월 5일에 15번째 COVID-19억제 정책을 냈고, 이는 감염병 곡선을 크게 억제시켰으나 어느 모델도 이러한 시기를 예측할 수는 없다)
또한 매우 한정적인 정보로는 초기 발병 시기의 stable soloutions을 도출하기란 거의 불가능하다. (많은 매개변수를 사용하더라도)

다만, 이러한 모델의 가치는 전염병 발병의 위험을 미리 경고하고, 특정 개입 및 완화 정책을 시행하기 전에 이에 관한 효과를 예측하는 데 있다.
(5일의 정책 시행 딜레이가 얼마만큼의 확진자를 증가시키는 지,
또한 대중교통 억제 정책은 85%의 확진자 규모 감소의 효과를 내는지 등)

As George E. P. Box, a famous statistician, said “all models are wrong, but some are useful”.

정부의 정책은 수 많은 소정책(마스크 착용, 집단시설 폐쇄, 사회적 거리두기 등)으로 이루어져 있기 때문에 어떠한 single method(특정 작은 정책 하나)를 평가하는건 불가능하다(인과관계를 따지기가 힘들기 때문에, 가령 lock down정책은 Wuhan의 출입 인원을 막을 뿐 아니라 바이러스의 반대편에 있는 국민의 경각심에도 영향을 친다).
그렇기 때문에 손을 더 씻고, 모임을 자제하고 집에 머무르곤 한다

인과관계와 상관관계는 꼭 구분 지어서 parameter 설정을 해야 한다.

이러한 개별 완화 및 개입 정책을 평가하기 위한 한 가지 방법은 agent base simulation(에이전트 기반의 시뮬레이션)을 사용하는 것이다(ABM).

Agent-based Model (행위자 기반 모델링)

  • 복잡계에서 다양한 구성원으로 이루어진 계들을 연구하기 위해 쓰이는 방법론
  1. 구성원과 외부 환경 설정
  2. 구성원에 주어지는 decision-making rules(행위 능력) 설정

교신 가능한 구성원 간의 네트워크 구성형으로 ABM의 컴퓨터 시뮬레이션 및 Emergence 산출.
“모든 구성원들이, 동시에, 주어진 능력 발휘” – 이를 연속적으로 반복 실행형으로 산출함.

목적 : 구성원의 행위 능력을 조절함으로 emergence의 예측 및 조절.

2. 전염병 예측에서의 머신러닝

컴퓨터 능력이 상승하면서, medical research에도 머신러닝 기술이 광범위하게 쓰이고 있다. 원 논문에서는 LSTM(Long Short Term Memory)기술을 썼는데, 이는 RNN 딥러닝의 발전버전이라고 보면 된다(새로운 확진자 수 예측에 쓰임) 원래 RNN과 LSTM모델은 주어진 단어나 문장으로부터 이어 질 만한 미래 요소를 예측하는 natural language processing에 많이 쓰여왔다. 대부분의 머신러닝 방법이 data-driven 형식으로 바뀌면서, present model(여기선 코로나) 정당화하기 위해 independent sample(여기선 SARS)을 사용하는게 중요해졌다.

즉, 2003년의 SARS 데이터를 학습집단으로 선정하고 , COVID-19를 검사집단(Testing set)으로 선정했다고 볼 수 있다. 그에 따른 결과는 현실세계와도 크게 동 떨어지지 않은, 주목할 만한 성과를 냈다.

Hu et al.은 Modifed auto-encoder(MAE-AI기반 방법)를 개발하여 100개 이상의 나라의 실시간 예측(누적 확진자+사망자)를 실행하였다.

딥러닝, web scraping, 그리고 다른 빅 데이터 기술의 통합은 분명히 COVID-19 예측의 정확성을 높힐 것.

하지만, ML분석에 기반을 둔 policy evaluation은 여전히 estimand가 무엇인지, data가 casual question에 명쾌한 답을 줄 수 있을지에 대한 이해를 과학자들로 하여금 요구되게끔 한다.

0개의 댓글