참고 논문 : A Modified SIR Model for the COVID-19 Contagion in Italy
본 글은 메모용으로 작성하였기에 참고하기에 적절하지 않을 수 있습니다.
원 글 작성일 : 2020-08-23
고로, 일반적인 사용자에게는 Collective model이 다루기 쉬우며, 이는 비교적 작은 데이터로도 어느정도 믿을 만한 결과를 도출한다.
전염병 모델에서 가장 중요한 variable은 감염자인데, 사용 가능한 정보는 오직 “positive”한 cases이고, “실질적인 확진자”는 알 수가 없다(issue 1).
identification of epidemic models은 많은 경우에 non-convex optimization problems을 다루어야 한다(issue 2).
우선, linear functions이 convex functions이다. (진짜 현실 세계의 문제를 non-linear 방식으로 해결해야 할까?)
identification은 model의 multi-step prediction error를 최소화 하는 방향으로 수행되어야 한다 (각기 다른 통제 전략의 올바른 비교를 위하여)
SIR모델이 어떻게, 위와 같은 non-convex optimizations과 multi-step predictions error를 해결할 수 있다는 걸까?
어쨌든 , multi-step prediction error를 극복하기 위해서 a novel long-term prediction algorithm을 채택했으며, 이 알고리즘은 가능한 모든 initial conditions에 대하여 simulations을 시작함으로써 수행되는 weighted average of the multi-step predictions을 기반으로 한다.
여러 conditions (parameter, initial conditions)등에 대해 컴퓨터 시뮬레이션을 돌려보고, 현실 세계와 가장 부합한 conditions을 채택하는 접근법과 비슷해보인다.
가중평균 (Weighted average)
real-data에 관한 연구가 제시된다.
다른 지역으로부터 지리적으로 고립된 지역이라 가정하자.
S,I,R,D
S : 감염에 허용되어있는 집단.
I : 감염되어있는 집단(바이러스 활성화)
R : 누적 치료자
D : Deceased : 고인(누적)
이에 관한, discrete-time version of the Kermack-McKendrick equations는 다음과 같다.
모델에, 어떻게 parameter가 결정되는 지에 대한 증명.
https://www.cabdirect.org/cabdirect/abstract/19762902036
이 모델에 대한 의의는 알겠으나, parameter의 estimate와, 식 자체의 의도가 궁금하긴 하다. (논문에 접근 자체가 안 돼서 아직 확인하지 못함.
β : 감염률
γ : 회복률
ν : 사망률
여기서 t=0,1,2,… 는 days.
-이는 SIR 모델의 discrete-time 버전이다(어떻게 미분방정식에서, discrete-time으로 바꿀 수 있는건지.
우선, 이 모델은 I(t)가 실제 확진자 수라고 가정하지만, 실제로는 observations 과정은 오직 일부분인 I ̃(t)만 탐지할 수 있다(무증상감염도 존재하므로 즉
기 때문이다. 이를 모델에 대입하면,
위 식은Weighted된 susceptible라고 보면 되고,
는 deteced된 회복자로 보면 된다. 앞으론 이 Equations(3)이 SIRD모델로 불릴 것이다.
(가중치를 줌으로써, observable한 data를 가지고 비교할 수 있다.)
즉, 기초 논문은 “actual number”에 관한 부분이지만, 실제 covid-19 연구에서는 관측되지 않은 cases의 연구는 어렵기 때문에 보정해주는 거라고 볼 수 있다.
또한, 이 모델의 continuous-time 버전의 식을 보려고 했으나 역시 논문에 접근이 안 된다.
아무튼, 이러한 모델들은 initial conditions에 크게 의존한다.
이 두가지는, epidemic peak의 진폭(amplitude)와 위치(location)를 결정한다.
불행하게도, 기본적으로 인구의 일부는 감염에 선천적으로 내성이 있거나, 영향을 받지 않을 수 있기 때문에 그 지역의 총 인구를 S(t0)으로 잡는 것은 실제보다 over-estimation일 수도 있다는 점을 따져보면 , 모델을 설계하는 사람에게 S(t0)에 대한 자료(datum)은 이용 불가능 하다고 볼 수 있다.
이는 따져야 할 추가 변수.
아무튼, 이런 문제들 때문에 모델을 rendering하는건 굉장히 어려운 역할이다.
이 논문의 주 목적은, 대신 S(t0),𝛂,𝛃,𝛄, ν와 같은 parameter를 사용 가능한 data로부터 estimating하는 것이며, 이로 인해 COVID-19의 behavior를 더 정확히 예측할 수 있을 것이다.
이 섹션에서는, parameter들을 identifying하는데 쓰이는 과정을 자세하게 설명하겠다.
여기에 쓰인 data는 https://github.com/pcm-dpc/COVID-19 에 서술된 official data를 이용하도록 하겠고, 여기 나온 data는 를 나타내며 discrete time은 전염병의 발병일로 부터의 날짜 수이다. (2월 24일~ 3월30일-이탈리아)
그러므로 , 고정된 값인 ω and α을 고려하면 Model(3)은 다음과 같이 regression(회귀) 형식으로 표현 가능하다.
이때, υ ̃=αν이며,
이다.
아래는, 참고하기 쉽게끔 Model(3)을 그대로 가져온 것.
역시, 그저 간단히 나타낸 것 뿐이다.
가능한 Time window 안에서 weighted vectors인
와
를 쌓음으로써 다음과 같은 행렬을 얻을 수 있다.
※ Time window : fixed interval of time when the data stream is processed for query and mining purpose
※ Weighting : 가중화 과정
역시, 이 식에서 ρ ∈(0, 1)은 parameter를 가중화하는 exponential decay(지수적 감쇠)라고 볼 수 있는데, 이는 최근 데이터에 더욱 관련성을 주기 위해서 정의 됐으며 θ는 time window의 길이이다(주어진 날짜길이)
그러면, parameter 𝛃,𝛄,ν ̃는 평균제곱최적화(mean square optimaztion)
문제를 품으로써 추정될 수 있다.
아마, 이는 실제 관측값과 예측값의 차이일 것.
또한 , 고정된 상수인 α,ω가 주어진다면, 이 최적화 문제의 해(parameter)는
이고
는 Moore-Penrose pseudo-inverse of matrix이다.(유사역행렬)
위의 최적화 문제는 convex하기 때문에 convex optimization method로 해결 가능함과 동시에, 문제
는 convex하지 않아도 된다는 점을 주목해보자.
예를 들면,
(not convex)
를 보면, ρ 값을 고정했을 때, MSE(α,ω)값이다. (α∈[1,100], ω∈[0,1])
즉, 만약 α,ω가 상수로 고정 됐다면 convex인데, 고정이 안 되어있다면 not convex라는 점이다.
그렇기에 바로 위에 정해진 parameter 5개에 대한 MSE모델은 컴퓨터적 해결이 다소 어려워 진다.(NOT-CONVEX하므로)
그럼에도 불구하고, α, β, γ, υ ̃and ω는 Algorithm 1을 사용함으로써 결정할 수 있고, 이는 model의 parameter를 computes한다(gridding함으로써, 데이터에 더 잘 맞게, 또한 (7)을 사용해서 MSE(α, ω)를 결정하고, 이에 대한 최소화 문제를 품으로써.)
α : 실제 감염자수(관측 불가능)와 관측 된 감염자수(관측 가능)의 차이변수
ω : 실제 지역의 총 인구(P)와 감염 가능한(S)의 차이변수
아래 나와있는 테이블은, 알고리즘1을 이용해 얻은 parameter이며, 단절되어있는 각 지역(region)또는 모든 이탈리아의 cases를 나타냈고, α ̅=100 – α의 최댓값(최대 범위), ρ=0.9로 가정하였다.
ρ=0.9로 가정 : 이는 맨 위의 식(5)와 (6)을 이해해보자.
그렇게 어렵지는 않다.
parameter를 tuning하는 알고리즘을 통해 α,ω을 gridding(너가 아는그 의미)함으로써, MSE(α,ω)문제를 풀어, 나머지 매개변수를 결정할 수 있다.