[논문리뷰+이론+아이디어] A Modified SIR Model for the COVID-19 Contagion in Italy

temp·2021년 8월 19일

Mathematical Model covid-19 optimization paper-review

숨은 감염자와 방역정책 순응도를 고려한 코로나19 확산 수리 모델링(메인)

목록 보기

7/8

참고 논문 : A Modified SIR Model for the COVID-19 Contagion in Italy

본 글은 메모용으로 작성하였기에 참고하기에 적절하지 않을 수 있습니다.

원 글 작성일 : 2020-08-23

SIR 모델에 관한 고찰과, 수학적 이론

A Modified SIR Model for the COVID-19 Contagion in Italy.

장,단기 예측을 할 수 있는 Modified SIR 모델은 정책 책임자들이 containment measure, lockdowns, and vaccination compaings(예방접종) 같은 정책을 결정하는데 판단 근거를 준다.
전염병의 time evolution을 예측하는 데에는 collective model과 networked model이 존재한다.
Collective model은 적은 수의 parameter와 적은 수의 collective variables로 전염병 확산을 묘사한다.(ex, growth model, logistic model, Richards model, Generalized Richards model, sub-epidemics wave models 등)
거기에 추가로, SIR, SEIR모델까지 포함해서 소위 compartmental(구획,칸막이) models 로 불린다.
Networked model은 굉장히 많은 수의 parameter와 variables을 사용해야하고,
network topology는 실 세계의 상황에 있어서 잘 안 알려져있으며 증명 자체가 너무나 어려운 일이다.(전문가를 위한 이론)

고로, 일반적인 사용자에게는 Collective model이 다루기 쉬우며, 이는 비교적 작은 데이터로도 어느정도 믿을 만한 결과를 도출한다.

Collective model은 보통 Differential equations 또는 discrete-time difference equations으로 나타나며 선험적으로 알려지지 않은(경험하기 이전엔 참,거짓을 판단할 수 없는), 그렇기 때문에 data로부터 식별되어야 할(have to identified) 여러 parameter들로 구성이 된다. 다만 이러한 parameter의 identification은 여러 실전적인 issue를 불러 일으킨다.

identifications of system ?

White-box identifications

모델의 parameters를 data로부터 추측한다.

Gray-box identification

일반적인 모델 구조가 주어진 상태에서 parameters를 data로부터 추측

Black-box identification

data로부터 모델 구조를 결정하고, parameters또한 추측한다.

전염병 모델에서 가장 중요한 variable은 감염자인데, 사용 가능한 정보는 오직 “positive”한 cases이고, “실질적인 확진자”는 알 수가 없다(issue 1).

이 모델에서는, 우선 Observed cases(어떤 경우를 말 하는건지)도 확진자로 가정한다(잘못 된 결과 도출 될 가능성 있음에도 불구하고).
즉, 어느정도 완벽하지 않아도 된다(그리고 그건 불가능하다).

identification of epidemic models은 많은 경우에 non-convex optimization problems을 다루어야 한다(issue 2).

convex optimization problems

우선, linear functions이 convex functions이다. (진짜 현실 세계의 문제를 non-linear 방식으로 해결해야 할까?)
identification은 model의 multi-step prediction error를 최소화 하는 방향으로 수행되어야 한다 (각기 다른 통제 전략의 올바른 비교를 위하여)
- 그를 위해선 non-convex optimizations problem을 풀어야함.

SIR모델의 첫번째 장점은 실제 감염자의 수를 묘사하며, 이 수는 epidemiological standpoint(역학적 관점) 에서 굉장히 중요하다(위에서 말했다시피)
SIR모델의 두번째 장점은, consists in(다음과 같이 구성된다) model identification and predictions frames-work(이는 위에 열거된 issue들을 극복하는데 도움이 된다 (infection evolution of covid-19에 있어서)

SIR모델이 어떻게, 위와 같은 non-convex optimizations과 multi-step predictions error를 해결할 수 있다는 걸까?

SIR 모델의 Identifications approach는 단순하지만 실전적인 scheme(계획)을 기반으로 두는데, 이는 identified된 일련의 parameters를 가정한다?(해석X)
nonlinear dependence(전문적 용어(terminology)로는, nonlinear parameters로 불리는) 적은 parameters(여기선 2개)를 다루기 위해서 grid is defined. (grid란 ?)
grid의 각 지점에서 다른 parameter들은 convex optimizations을 통해서 identified된다.
결국, 이러한 접근(convex optimization)은 over the grid, 적절한 목적 함수(objective function)을 최소화하는 optimal한 parameter estimate가 선택된다.
이는 특히 epidemic collective models에 도움되는데 이는 몇 안되는 개수의 nonlinear parameters로 구성되기 때문이다.
물론 변수의 양이 많아지면, 접근법은 컴퓨터적으로 실현할 수 없게 된다.
이러한 convex optimization으로 행해진 parameter estimate는 분명히 믿을 만하나, 장기적인 관점에서 예측은 극도로 정확하진 않을 것이다.
(이는, convex optimization는 one-step prediction error는 최소화하지만 multi-step predction error는 최소화 할 수 없기 때문이다.

어쨌든 , multi-step prediction error를 극복하기 위해서 a novel long-term prediction algorithm을 채택했으며, 이 알고리즘은 가능한 모든 initial conditions에 대하여 simulations을 시작함으로써 수행되는 weighted average of the multi-step predictions을 기반으로 한다.

여러 conditions (parameter, initial conditions)등에 대해 컴퓨터 시뮬레이션을 돌려보고, 현실 세계와 가장 부합한 conditions을 채택하는 접근법과 비슷해보인다.

가중평균 (Weighted average)

Weighted average is a calculation that takes into account the varying degrees of importance of the numbers in a data set.
이 접근법은, noise와 error effects를 감소시키는 쪽으로 작용하고, 이는 장기적인(long-term) 예측 정확성에 도움이 된다.

real-data에 관한 연구가 제시된다.

SIRD MODEL FOR COVID-19 CONTAGION

다른 지역으로부터 지리적으로 고립된 지역이라 가정하자.
S,I,R,D
S : 감염에 허용되어있는 집단.
I : 감염되어있는 집단(바이러스 활성화)
R : 누적 치료자
D : Deceased : 고인(누적)

이에 관한, discrete-time version of the Kermack-McKendrick equations는 다음과 같다.

모델에, 어떻게 parameter가 결정되는 지에 대한 증명.
https://www.cabdirect.org/cabdirect/abstract/19762902036

이 모델에 대한 의의는 알겠으나, parameter의 estimate와, 식 자체의 의도가 궁금하긴 하다. (논문에 접근 자체가 안 돼서 아직 확인하지 못함.

β : 감염률
γ : 회복률
ν : 사망률
여기서 t=0,1,2,… 는 days.

-이는 SIR 모델의 discrete-time 버전이다(어떻게 미분방정식에서, discrete-time으로 바꿀 수 있는건지.

모델에 대한 가정

다른 지역으로부터 출,입은 없다고 가정(발전시킨게 중국의 논문)

containment measure가 실행 된 경우는 고립이 타당하므로

확진자가 다른 지병으로 사망한 경우는 무시한다 (판단 하기 복잡해서)

우선, 이 모델은 I(t)가 실제 확진자 수라고 가정하지만, 실제로는 observations 과정은 오직 일부분인 I ̃(t)만 탐지할 수 있다(무증상감염도 존재하므로 즉

기 때문이다. 이를 모델에 대입하면,

위 식은Weighted된 susceptible라고 보면 되고,
는 deteced된 회복자로 보면 된다. 앞으론 이 Equations(3)이 SIRD모델로 불릴 것이다.
(가중치를 줌으로써, observable한 data를 가지고 비교할 수 있다.)
즉, 기초 논문은 “actual number”에 관한 부분이지만, 실제 covid-19 연구에서는 관측되지 않은 cases의 연구는 어렵기 때문에 보정해주는 거라고 볼 수 있다.

또한, 이 모델의 continuous-time 버전의 식을 보려고 했으나 역시 논문에 접근이 안 된다.

아무튼, 이러한 모델들은 initial conditions에 크게 의존한다.
이 두가지는, epidemic peak의 진폭(amplitude)와 위치(location)를 결정한다.
불행하게도, 기본적으로 인구의 일부는 감염에 선천적으로 내성이 있거나, 영향을 받지 않을 수 있기 때문에 그 지역의 총 인구를 S(t0)으로 잡는 것은 실제보다 over-estimation일 수도 있다는 점을 따져보면 , 모델을 설계하는 사람에게 S(t0)에 대한 자료(datum)은 이용 불가능 하다고 볼 수 있다.

이는 따져야 할 추가 변수.

아무튼, 이런 문제들 때문에 모델을 rendering하는건 굉장히 어려운 역할이다.
이 논문의 주 목적은, 대신 S(t0),𝛂,𝛃,𝛄, ν와 같은 parameter를 사용 가능한 data로부터 estimating하는 것이며, 이로 인해 COVID-19의 behavior를 더 정확히 예측할 수 있을 것이다.

MODEL IDENTIFICATION

이 섹션에서는, parameter들을 identifying하는데 쓰이는 과정을 자세하게 설명하겠다.
여기에 쓰인 data는 https://github.com/pcm-dpc/COVID-19 에 서술된 official data를 이용하도록 하겠고, 여기 나온 data는 를 나타내며 discrete time은 전염병의 발병일로 부터의 날짜 수이다. (2월 24일~ 3월30일-이탈리아)

S집단의 수를 정확하게 나타내기 위하여 새로운 parameter를 도입하였다.

추가적인 variable들의 정의

그러므로 , 고정된 값인 ω and α을 고려하면 Model(3)은 다음과 같이 regression(회귀) 형식으로 표현 가능하다.

이때, υ ̃=αν이며,

이다.

아래는, 참고하기 쉽게끔 Model(3)을 그대로 가져온 것.

역시, 그저 간단히 나타낸 것 뿐이다.
가능한 Time window 안에서 weighted vectors인
와

를 쌓음으로써 다음과 같은 행렬을 얻을 수 있다.

※ Time window : fixed interval of time when the data stream is processed for query and mining purpose
※ Weighting : 가중화 과정

역시, 이 식에서 ρ ∈(0, 1)은 parameter를 가중화하는 exponential decay(지수적 감쇠)라고 볼 수 있는데, 이는 최근 데이터에 더욱 관련성을 주기 위해서 정의 됐으며 θ는 time window의 길이이다(주어진 날짜길이)

그러면, parameter 𝛃,𝛄,ν ̃는 평균제곱최적화(mean square optimaztion)
문제를 품으로써 추정될 수 있다.

아마, 이는 실제 관측값과 예측값의 차이일 것.
또한 , 고정된 상수인 α,ω가 주어진다면, 이 최적화 문제의 해(parameter)는

이고

는 Moore-Penrose pseudo-inverse of matrix이다.(유사역행렬)

위의 최적화 문제는 convex하기 때문에 convex optimization method로 해결 가능함과 동시에, 문제

는 convex하지 않아도 된다는 점을 주목해보자.
예를 들면,
(not convex)
를 보면, ρ 값을 고정했을 때, MSE(α,ω)값이다. (α∈[1,100], ω∈[0,1])
즉, 만약 α,ω가 상수로 고정 됐다면 convex인데, 고정이 안 되어있다면 not convex라는 점이다.
그렇기에 바로 위에 정해진 parameter 5개에 대한 MSE모델은 컴퓨터적 해결이 다소 어려워 진다.(NOT-CONVEX하므로)

그럼에도 불구하고, α, β, γ, υ ̃and ω는 Algorithm 1을 사용함으로써 결정할 수 있고, 이는 model의 parameter를 computes한다(gridding함으로써, 데이터에 더 잘 맞게, 또한 (7)을 사용해서 MSE(α, ω)를 결정하고, 이에 대한 최소화 문제를 품으로써.)

α : 실제 감염자수(관측 불가능)와 관측 된 감염자수(관측 가능)의 차이변수
ω : 실제 지역의 총 인구(P)와 감염 가능한(S)의 차이변수

아래 나와있는 테이블은, 알고리즘1을 이용해 얻은 parameter이며, 단절되어있는 각 지역(region)또는 모든 이탈리아의 cases를 나타냈고, α ̅=100 – α의 최댓값(최대 범위), ρ=0.9로 가정하였다.
ρ=0.9로 가정 : 이는 맨 위의 식(5)와 (6)을 이해해보자.
그렇게 어렵지는 않다.

1일차는 가중치 ρ(미리 임의로 정해넣음, 여기서는 0.9 등)가 50번 곱해져있고, 2일차는 49번 곱해져있고….
변수 위의 강조점은, 아마 쌓았다는 의미 인 것 같다(가중치를 주면서 0일부터 50일까지 나열)
또한, 아래 MSE 문제의 식도 가만 보면 그저 각 날짜마다 가중치를 주어서
최소 제곱법을 풀었을 뿐이다.