Interrupted Time Series Analysis를 할 때 개입 시점으로 centering 하는 이유

·2025년 3월 14일
0

개입 시점이 time = 22고 time = 25까지 관찰했다고 하자. time을 그대로 두는 것과 time을 22 시점 -> 0으로 centered 하는 것 (time = time-22) 이 무슨 차이가 있을까

교수님 "절편의 비교대상이 달라지는 겁니다. post 이전 시기의 맨 처음과 비교하는게 아니라 맨 뒤랑 비교하는 걸로 바뀌는."

22, 23, 24, 25와 같이 높은 값으로 주어지면, 해당 시점에서의 slope(기울기)나 interaction 효과가 곱해지는 값이 커지기 때문에, 예측되는 y 값이 급격하게 달라질 수 있습니다.

자세한 설명:

  • 기준점의 차이:
    중심화되지 않은 시간 변수에서는 0이 연구 시작점을 의미하게 되고, 개입(post) 시점(예: 22~25)은 매우 높은 값입니다. 이렇게 되면 절편과 상호작용 항의 해석이 개입 시점과 직접적으로 연결되지 않아, 해석이 어려워집니다.

  • 계수의 곱셈 효과:
    시간 변수의 값이 크면, 기울기(slope) 계수와 상호작용 항(time:post)이 큰 숫자와 곱해지기 때문에, 모델이 예측하는 y 값이 매우 크게 변할 수 있습니다.
    예를 들어, 시간 변수의 값이 22, 23, 24, 25일 때, 이들 값이 계수에 곱해지면서 예측 y 값에 큰 영향을 주게 됩니다.

  • 중심화의 장점:
    반면, 시간을 0, 1, 2, 3 등으로 중심화하면, 개입 시점이 0이 되어 절편과 상호작용 항의 해석이 명확해집니다. 이렇게 하면 post의 효과(즉, 개입 직후의 수준 변화)를 보다 정확하게 반영할 수 있고, 각 계수의 추정치와 통계적 유의성에도 영향을 줄 수 있습니다.

따라서, 시간 변수의 스케일과 기준점에 따라 모델 계수와 예측값의 변화가 달라지고, 통계적 유의성도 달라질 수 있습니다. 이러한 이유 때문에, 적절한 해석과 안정적인 추정을 위해 시간 변수를 중심화하는 것이 권장됩니다.

profile
보건대학원 뉴비

0개의 댓글