전통적 AIOps와 Forecasting

sangyeob·2026년 4월 18일

1. 전통 AIOps 기본기: 무엇을 해결하려 했나

Deduplication과 Event Correlation

운영 환경에서 이상 탐지의 가장 큰 적은 사실 이상 자체가 아니라 알람 폭풍(alert storm)이다. 하나의 데이터베이스 장애가 수백 개의 파생 알람을 만들어내면, 운영자는 인과 관계를 파악하기 전에 지쳐버린다.

Deduplication은 같은 출처에서 반복되는 이벤트를 하나로 접는다. Event Correlation은 시간적·위상적으로 연관된 이벤트를 묶어 근본 원인을 추론한다. 이 두 기법은 아직도 유효하다. Foundation Model이 등장해도 데이터 전처리 단계에서 여전히 필요하다.

Static Threshold에서 Dynamic Baselining으로

초기 AIOps는 CPU > 80%이면 알람과 같은 고정 임계치를 사용했다. 이 방식의 문제는 자명하다. 배치 처리가 몰리는 새벽 2시와 트래픽이 피크인 낮 12시의 "정상 CPU 80%"는 전혀 다른 의미다.

Dynamic Baselining은 이를 해결하려 했다. 과거 일정 기간의 시계열을 분해(seasonal decomposition)하고, 시간대·요일 패턴을 학습해 "지금 시점의 기대 범위"를 동적으로 계산한다. 실제로 단순 고정 임계치 대비 false positive를 크게 줄였다.

2. 동적 베이스라이닝의 구조적 한계

그런데 동적 베이스라이닝도 세 가지 구조적 문제를 해결하지 못한다.

Concept Drift

"정상"의 개념 자체가 변한다. 서비스가 성장하면서 기저 트래픽이 3배가 되면, 과거 데이터로 학습한 기준선은 더 이상 현재의 정상을 설명하지 못한다. 모델을 주기적으로 재학습하더라도, 재학습 주기 사이의 공백에서 드리프트가 누적된다.

상황 의존적 정상 개념 (Context-Dependent Normality)

배포 이벤트가 발생한 직후 CPU 스파이크는 이상인가, 정상인가? 토폴로지 의존 관계상 업스트림 서비스가 점검 중일 때 하위 서비스의 에러율 증가는 이상인가?

이 질문에 대해 전통 Dynamic Baselining은 답을 모른다. 외생 변수(exogenous variable)를 입력으로 받는 구조가 없기 때문이다. 시계열 그 자체만 보고 기준선을 만들 뿐이다.

Fixed-Window 한계

고정 슬라이딩 윈도우 기반 베이스라이닝은 윈도우 크기보다 긴 주기의 패턴을 학습하지 못한다. 예를 들어 월별 결제 주기나 분기별 트래픽 패턴은 짧은 윈도우로는 포착되지 않는다.

CrossAD (NeurIPS 2025)는 이 문제에 직접 대응한다. 다중 샘플링 단위에서 시계열 데이터가 다른 패턴을 보인다는 점에서, 다중 스케일 모델링이 단일 스케일에서 보이지 않는 잠재 이상 패턴을 발굴하는 데 유효하다는 관찰에서 출발한다. OpenReview 기존 방법들이 다중 스케일 정보를 독립적으로 모델링하거나 단순한 피처 퓨전에 의존하는 반면, CrossAD는 크로스 스케일 연관성과 크로스 윈도우 모델링을 결합한 프레임워크로, 고운 시계열을 거친 시계열로부터 재구성함으로써 스케일 간 연관성을 명시적으로 포착한다. 또한 고정 윈도우 크기의 한계를 넘기 위해 쿼리 라이브러리를 설계하고 글로벌 다중 스케일 컨텍스트를 통합한다. NeurIPS

3. Forecasting Foundation Model의 간접 탐지 경로

그렇다면 외생 변수를 입력으로 받는 모델을 전통 방식으로 직접 만들면 해결되지 않을까? 원론적으로는 가능하다. 하지만 서비스마다 메트릭 특성이 다르고, covariate 조합도 다르다. 결국 서비스별로 모델을 개별 학습하고, 데이터가 쌓일 때마다 재학습하고, concept drift가 생기면 다시 조정해야 한다. 운영 비용이 탐지 로직보다 인프라 유지에 집중되는 구조다.

Forecasting Foundation Model의 zero-shot 능력은 바로 이 지점을 건드린다. 사전 학습된 모델이 새로운 메트릭에 대해 추가 학습 없이 합리적인 예측 구간을 만들어낸다면, 서비스별 모델 관리 비용이 사라진다.

여기서 개념적으로 중요한 포인트가 있다. Chronos-2나 TimesFM 2.5 같은 Forecasting Foundation Model은 이상을 직접 탐지하지 않는다. 이 모델들의 본업은 예측(forecasting)이다.

이상 탐지는 이 예측 능력을 간접적으로 활용한다:

예측값 + 예측 구간 (prediction interval)
        ↓
실제 관측값이 구간 바깥에 위치
        ↓
이상 신호

이 방식의 핵심 장점은 prior를 인간이 수동으로 정의하지 않아도 된다는 점이다. 모델이 수천 개의 다양한 시계열을 사전 학습했기 때문에, 새로운 메트릭에 대해서도 제로샷으로 합리적인 예측 구간을 만들어낸다.

Chronos-2의 Covariate-Informed Forecasting

Chronos-2는 1억 2천만 파라미터의 인코더 전용 시계열 파운데이션 모델로, 단변량·다변량·공변량 기반 태스크를 단일 아키텍처 내에서 지원한다. 그룹 어텐션 메커니즘을 활용해 관련 시계열과 공변량 전반에 걸친 인컨텍스트 학습을 실현하며, 다중 스텝 분위 예측을 생성한다. Hugging Face

AIOps 관점에서 중요한 것은 covariate 지원이다. Chronos-2는 공변량 기반 예측에서 외부 요인을 예측에 반영할 수 있다. 과거 공변량(예: 향후 트렌드를 알리는 과거 트래픽 볼륨)과 미래 공변량(예: 예정된 배포 이벤트 또는 날씨 예보)을 모두 지원하며, 범주형 공변량도 처리한다. Amazon

이를 MLOps 인프라에 대입하면: 배포 이벤트 타임스탬프, 토폴로지 변경 이력, 스케줄된 배치 작업 시각 같은 메타데이터를 covariate으로 주입할 수 있다. 모델은 "배포 직후 시점임을 알고 있는 상태"에서 예측 구간을 만들 수 있으므로, 배포 후 일시적인 CPU 스파이크를 이상으로 잘못 판정할 가능성이 줄어든다.

Chronos-2는 GIFT-Eval 벤치마크에서 이전 1위였던 TimesFM-2.5와 TiRex를 WQL과 MASE 기준 모두에서 능가하며 가장 높은 승률과 스킬 점수를 달성했다. 특히 장기 예측과 고빈도 예측에서 강점을 보인다. Substack

TimesFM 2.5의 XReg 방식

TimesFM 2.5는 covariate 지원 구조가 약간 다르다. TimesFM 2.5의 API는 인샘플 예측을 반환하지 않는 구조여서, 이전 버전에서의 직접적인 공변량 통합 방식을 그대로 쓸 수 없다. 실용적 접근은 TimesFM 예측을 생성한 뒤, 잔차에 외부 공변량을 사용한 선형 모델을 피팅하는 방식이다. Substack 이는 Foundation Model의 예측 역량과 전통적인 회귀 모델의 설명 가능성을 결합하는 하이브리드 전략이다.

sangyeob

이전 포스트