Week 3: 전통적 AIOps의 기본기와 Forecasting Foundation Model의 등장

bocopile·2026년 4월 17일

AI-Agent

목록 보기
3/5
post-thumbnail

1. Deduplication — 중복 제거

1.1 왜 중복 제거가 필요한가

새벽 3시, DB 연결이 끊겼다고 가정합시다.
DB에 연결하는 서비스가 20개라면 알림이 20개 울립니다.
5분마다 재발화(re-fire)되는 규칙이 있다면 1시간 후에는 240개입니다.
실제로 확인해야 할 유니크한 상황은 단 1건입니다.

Deduplication(중복 제거) 은 이 문제를 해결하는 첫 번째 방어선입니다.

[중복 발생 예시]
13:00:01  ALERT: DB connection failed - service-A
13:00:03  ALERT: DB connection failed - service-B
13:00:05  ALERT: DB connection failed - service-C
13:05:01  ALERT: DB connection failed - service-A  (5분 후 재발화)
13:05:03  ALERT: DB connection failed - service-B  (5분 후 재발화)
...

Dedup 후 → 1건의 인시던트 "DB connection failure"로 압축

1.2 Deduplication의 3가지 방식

방식원리장점단점
Hash-based이벤트의 핵심 필드를 해시 → 동일 해시면 중복처리 빠름, 구현 단순필드 값이 조금만 달라도 다른 이벤트로 인식
Content-based메시지 내용의 의미적 유사도 비교자연어 변형에도 중복 인식계산 비용 높음, 임계치 설정 어려움
Time-window지정된 시간 창 안에서 같은 출처·유형의 이벤트를 묶음재발화 이벤트 처리에 효과적창 크기 설정이 결과에 크게 영향

실무에서는 세 방식을 조합합니다. PagerDuty의 dedup_key, BigPanda의 primary/secondary property 방식이 대표적 구현입니다.

1.3 Hash-based Deduplication 동작 원리

import hashlib

def compute_dedup_key(event: dict) -> str:
    """핵심 필드만 추출해 해시 키 생성"""
    key_fields = {
        "source": event.get("source"),
        "check_name": event.get("check"),
        "severity": event.get("severity"),
        "service": event.get("service"),
    }
    # 타임스탬프, UUID 같은 가변 필드는 반드시 제외
    key_str = str(sorted(key_fields.items()))
    return hashlib.md5(key_str.encode()).hexdigest()

핵심: 해시 생성 시 타임스탬프, UUID, 자동 증가 ID 같은 가변 필드는 반드시 제외해야 합니다. 포함되면 같은 이벤트도 매번 다른 해시가 되어 dedup이 동작하지 않습니다.

1.4 Content-based Deduplication

로그 메시지는 동일한 오류라도 포맷이 다양합니다:

"Connection to DB refused at 192.168.1.10:5432"
"Failed to connect to database: connection refused"
"DB connection error: host=192.168.1.10 port=5432 status=refused"

Hash-based 방식으론 중복으로 인식하지 못합니다.
Content-based dedup은 TF-IDF, 임베딩 벡터 유사도, 또는 LLM을 사용해 의미적으로 같은 이벤트를 묶습니다.

방식유사도 계산적합한 데이터
Cosine Similarity (TF-IDF)단어 빈도 기반 벡터 거리구조화된 로그 메시지
Embedding 벡터 유사도사전학습 언어모델 임베딩자연어 혼합 로그
Edit Distance (Levenshtein)문자 변환 횟수템플릿 기반 로그

1.5 Deduplication 파이프라인


2. Baselining — 정상의 기준선

2.1 정적 임계치의 한계: “CPU 80% = 위험?”은 틀린 질문

운영 초기에 가장 흔히 쓰는 방식이 정적 임계치(static threshold)입니다:

alert: HighCPU
expr: cpu_usage > 80
for: 5m
labels:
severity: warning

비유하면: “체온이 36.5°C를 넘으면 무조건 병원에 가세요” 와 같습니다.
달리기 직후, 여름 낮에는 37°C를 넘는 게 완전히 정상입니다.

CPU도 마찬가지입니다

새벽 3시  CPU 30% → 정상 (트래픽 없음)
낮 12시   CPU 85% → 정상 (점심 피크)
오전 9시  CPU 85% → 주의 (평시보다 높음)
새벽 3시  CPU 60% → 이상! (배치 작업 없는데 높음)

정적 임계치는 이 맥락을 무시합니다.
결과는 낮에는 오탐 폭주(Alert Fatigue), 밤에는 미탐(사고 누락)입니다.

2.2 Baselining의 진화

세대방식특징적합한 상황
1세대정적 임계치구현 단순, 맥락 무시단조로운 메트릭
2세대이동 평균단기 추세 반영완만한 변화
3세대z-score / Percentile통계적 이상 감지정규분포에 가까운 메트릭
4세대STL 계절성 분해주기적 패턴 분리일/주 단위 주기성
5세대ML 기반복합 패턴 학습비즈니스 사이클

2.3 z-score 방식

현재 값이 평균에서 표준편차의 몇 배만큼 떨어져 있는지를 측정합니다.

z = (현재값 - 이동평균) / 이동표준편차

예: 이동평균 = 50%, 이동표준편차 = 5%
    현재 CPU = 70%
    z = (70 - 50) / 5 = 4.0

일반적 임계치: |z| > 3이면 이상 (99.7% 구간 밖)
def zscore_anomaly(series, window=60, threshold=3.0):
    rolling_mean = series.rolling(window).mean()
    rolling_std = series.rolling(window).std()
    z_scores = (series - rolling_mean) / rolling_std
    return z_scores.abs() > threshold  # True = 이상

z-score의 약점: 정규분포를 가정합니다. 실제 운영 메트릭은 치우쳐 있거나(skewed) 두꺼운 꼬리(heavy-tailed)를 갖는 경우가 많아 오탐이 발생합니다.

2.4 계절성 분해 (STL)

실제 메트릭에는 규칙적 패턴이 있습니다

  • 일별: 출근 시간에 CPU 오르고, 새벽에 낮아짐
  • 주별: 주말에 트래픽 급감
  • 월별: 급여일, 결산일에 DB 부하 폭증

STL(Seasonal-Trend Decomposition using Loess) 은 시계열을 세 성분으로 분해합니다

관측값(Observed) = 추세(Trend) + 계절성(Seasonal) + 잔차(Residual)

이상 탐지는 Residual(설명되지 않은 부분)에서 수행
→ "원래 높아야 할 시간에 높다"는 이유의 오탐 제거

참고: STL은 기본적으로 가산 모델(additive model)을 사용합니다.
계절 진폭이 수준에 비례하는 메트릭(예: 지수적 성장 트래픽)에는
로그 변환 후 STL 적용(사실상 곱셈 모델 효과)이 권장됩니다.

2.5 상용 플랫폼의 Dynamic Baselining

Datadog Anomaly Detection (3가지 알고리즘):

알고리즘내부 방식적합한 메트릭
BasicRolling quantile (이동 분위수)계절성 없는 단순 메트릭
AgileSARIMA (계절성 ARIMA)계절성 있고 baseline 이동 잦은 메트릭
RobustSTL (계절성-추세 분해)안정적 반복 패턴을 가진 메트릭

Dynatrace Davis AI의 Multi-dimensional Baselining:

  • 지역(geo) x 브라우저 x OS x 사용자 액션 조합별로 개별 baseline 학습
  • 예: “뉴욕에서 Chrome으로 결제 페이지 접근 시 응답시간” = 별도 baseline
  • 즉시 작동(별도 학습 대기 기간 없음), 트래픽 패턴 변화에 자동 적응
  • “특정 지역의 특정 브라우저에서만 느려지는” 이슈도 감지 가능

2025년 업데이트: Dynatrace는 Davis AI에 Preventive Operations 기능을 추가했습니다.
이상 탐지(reactive)를 넘어 장애 발생 전 예방적으로 조치를 취하는 예방적 AIOps입니다.


3. Event Correlation 심화

2주차에서 Event Correlation의 3가지 유형(Temporal, Topological, Semantic)을 소개했습니다.
3주차에서는 각 유형이 어떻게 동작하고, 어떤 상황에서 조합하는지 깊이 살펴봅니다.

3.1 Temporal Correlation — 시간 창 기반

“같은 시간대에 발생한 이벤트는 같은 원인일 가능성이 높다”는 가정입니다.

시간 창: 5분

[13:00:01] DB connection failed - service-A    ┐
[13:00:03] DB connection failed - service-B    │ 같은 창
[13:00:05] HTTP 500 spike - service-A          ├→ 단일 인시던트
[13:01:30] Latency spike - service-B           │
[13:02:00] SLO burn rate alert - payment       ┘

[13:08:00] Memory OOM - service-C              → 새 인시던트 (다른 창)

한계 — 느린 원인-결과 체인

메모리 누수 시나리오:
[11:00] 메모리 사용량 증가 시작 (이상 없음)
[11:30] 메모리 80% 초과 (알림 발생)
[12:00] OOM Kill 발생

→ 11:30과 12:00은 30분 차이 → 5분 창으로는 상관 실패
→ 원인-결과 관계가 있어도 시간 차가 크면 별개 인시던트로 처리

3.2 Topological Correlation — 의존성 그래프 기반

  • Topological Correlation 없이 4개 서비스 알림 = 4개 별개 인시던트
  • Topological Correlation 있으면 DB가 공통 의존성 → DB 장애 1건으로 통합, Root Cause 지목

핵심 위험 — Stale Topology

실제:    service-A → new-db (3주 전 마이그레이션)
CMDB:    service-A → old-db (마이그레이션 전 정보)

→ 엉뚱한 DB가 root cause로 지목 → MTTR 증가

3.3 Semantic Correlation — 의미 기반

Temporal과 Topological이 모두 실패하는 경우를 보완합니다.

이벤트 1: "Authentication service returning 503 - dependency timeout"
이벤트 2: "User login API response time exceeded 5000ms"
이벤트 3: "JWT validation failed - service unavailable"

→ "authentication", "login", "JWT" 의미적 유사성 높음
→ Topological 연결 없어도 같은 인시던트로 그룹화
방식정밀도비용
TF-IDF 코사인 유사도낮음낮음
Word2Vec/FastText 임베딩중간중간
BERT/Sentence-BERT높음높음
LLM (GPT/Claude)매우 높음매우 높음

최근 트렌드 (2025~2026): BigPanda, Datadog, IBM AIOps Insights는 세 방식을 앙상블로 조합합니다.
LLM 기반 Semantic Correlation은 2024년부터 프로덕션에 본격 도입되었으며,
2025~2026년에는 Agentic AIOps가 핵심 트렌드로 부상했습니다:
Correlation → 진단 → Remediation까지 AI 에이전트가 자율적으로 수행하는 구조입니다.

3.4 세 가지 Correlation의 조합 전략


4. Noise Reduction 파이프라인

4.1 전체 구조

4.2 각 단계의 효과

단계제거 대상기대 감소율위험
필터링임계치 미달, 테스트 환경20~30%중요 이벤트도 필터될 위험
Deduplication동일 이벤트 재발화40~60%미묘하게 다른 이벤트 오인
Correlation단일 원인 파생 다수 알림70~90%Stale topology 오상관
Suppression예정된 유지보수, 알려진 FP5~15%실제 장애 억제 위험

BigPanda 사례: 고객사 평균 노이즈 감소율은 80~98%.
Transnetyx 사례에서는 96%의 이메일 알림 감소를 달성했습니다.

4.3 Suppression — 안전장치

suppression_rules:
  - name: "DB Maintenance Window"
    services: ["payment-db", "user-db"]
    start: "2025-01-15 02:00 KST"
    end: "2025-01-15 04:00 KST"
    reason: "DB Index 재구성 작업"

안전장치
1. Suppression 적용된 인시던트도 로그에는 기록 (감사 추적)
2. 임계 심각도(P1/Critical) 이상은 Suppression 예외 처리
3. Suppression 종료 후 미처리 인시던트 자동 재활성화
4. Suppression 규칙 만료일 강제 (무기한 Suppression 금지)


5. Anomaly Detection 진화 과정

5.1 4세대 진화

5.2 방법별 비교

방법설명 가능성계산 비용계절성새 패턴 탐지학습 데이터
정적 임계치★★★★★매우 낮음XX불필요
z-score / IQR★★★★낮음X최소
STL + 통계★★★★중간O중간
Isolation Forest★★중간O필요
LSTM Autoencoder높음OO대량
Prophet★★★★중간O중간

5.3 TSB-AD 벤치마크의 발견 (NeurIPS 2024)

2024년 NeurIPS에 발표된 TSB-AD(“The Elephant in the Room”) 벤치마크는 업계의 상식을 뒤집었습니다.

40개 데이터셋, 1,070개 시계열, 40개 알고리즘을 비교한 결과

“심층 신경망의 우수성에 대한 통념에 의문을 제기하며, 단순한 아키텍처와 통계적 방법이 고급 신경망 아키텍처보다 더 나은 성능을 보이는 경우가 많다는 것을 밝혔습니다.”

상위 12개 방법 중
- 6개 이상: 통계 기반 방법 (Sub-PCA 1위)
- 2개: 신경망 기반 (USAD, CNN)
- 1개: Foundation Model (MOMENT)

시사점
복잡한 딥러닝 모델이 항상 더 좋은 건 아닙니다.
도메인 특성에 맞는 방법 선택이 중요합니다.


6. 전통적 기법의 구조적 한계

6.1 Concept Drift — “정상”의 정의가 시간에 따라 변한다

Concept Drift

란 학습 당시와 운영 시점에서 데이터 분포가 달라지는 현상입니다.
1년 전에 졸업한 학생의 성적 분포로 지금 학생을 평가하는 것과 같습니다.

Concept Drift의 3가지 유형

유형설명예시
Gradual (점진)분포가 서서히 이동서비스 성장에 따른 트래픽 증가
Abrupt (급격)분포가 갑자기 변화대규모 배포, 아키텍처 변경
Recurring (반복)특정 조건에서 주기적으로 변화세일 이벤트, 결산일
점진적 드리프트
  모델 학습 시점: 일평균 요청 100만 건, CPU 평균 40%
  6개월 후:       일평균 요청 500만 건, CPU 평균 70%
  → 기존 모델: CPU 70% = 이상 탐지 (사실은 새로운 정상)

급격한 드리프트
  배포 전: 응답시간 50ms
  새 기능 배포 후: 응답시간 200ms (더 많은 연산이 추가)
  → 기존 모델: 200ms = 이상 탐지 (사실은 의도된 변화)

6.2 정적 임계치의 근본적 한계

같은 CPU 80%라도 맥락에 따라 의미가 완전히 다릅니다

맥락CPU 80%의 의미
평일 낮 12시정상 피크 트래픽
새벽 3시 배치 없는 상황심각한 이상
배포 직후 워밍업 중일시적, 곧 정상화
마케팅 이벤트 시작 직후예상된 증가

정적 임계치는 이 네 맥락을 전혀 구분할 수 없습니다.

6.3 상황 의존적 정상 개념

“지금 이 상황”이 정상의 기준을 결정합니다.

배포 직후 시나리오
  배포 10분 전:  CPU 30%, 응답시간 50ms → 정상
  배포 직후:     CPU 70%, 응답시간 150ms → "이상?" 아니면 "워밍업 중"?
  배포 20분 후:  CPU 40%, 응답시간 60ms → 정상

전통적 AIOps
→ 배포 직후 CPU 70% = 이상 탐지 = 오탐
→ 운영자가 "배포 직후라 일시적"이라고 무시
→ Alert Fatigue 심화
상황변경되어야 할 정상 기준
배포 직후CPU·메모리 증가 허용, 응답시간 허용 범위 확대
마케팅 이벤트트래픽·DB 연결 수 임계치 상향
DB 백업 시간I/O 급증 허용
결산/월말재무 배치 프로세스 CPU 증가 허용

핵심: 전통적 기법은 배포 이력, 이벤트 캘린더, 업무 일정 같은 외부 컨텍스트를 소비할 구조가 없습니다.

6.4 수동 재학습 비용의 현실

서비스 100개 × 주요 메트릭 50개 = 5,000개 개별 baseline 모델
주간 배포 10회 × 서비스 10개 영향 = 주당 500개 재검토 필요

→ 전담 인력 없이는 "재학습 못 함" → Concept Drift 방치
→ 오탐 증가 → Alert Fatigue → 실제 장애 미탐

6.5 한계 종합

한계근본 원인필요한 해결 방향
정적 임계치맥락(context) 무시시간대·상황별 동적 임계치
Concept Drift분포 변화 미감지자동 드리프트 감지 + 적응
상황 의존 정상외부 이벤트 통합 없음이벤트 컨텍스트(covariate) 통합
재학습 비용수동 MLOpsZero-shot 또는 자동 continuous learning

7. 전통에서 현대로 — 패러다임 전환의 큰 그림

7.1 5세대 기술 진화

7.2 각 세대별 대표 도구

1세대 (규칙 기반, ~2010)

  • Nagios, Zabbix의 임계값 경보
  • 장점: 설명 가능성 최고, 설정 단순
  • 단점: 규칙 유지 비용 폭발, 동적 환경 대응 불가

2세대 (통계 기반, 2010~2016)

  • Facebook Prophet, Netflix Atlas, Twitter Breakout Detection
  • 장점: 계절성 자동 처리, 통계적 신뢰 구간
  • 단점: 복잡한 비선형 패턴 처리 어려움, 시리즈별 피팅 필요

3세대 (ML 기반, 2016~2023)

  • Isolation Forest, LSTM Autoencoder, RRCF (AWS CloudWatch 채택)
  • 장점: 복잡한 패턴 학습 가능
  • 단점: 도메인별 재학습 필요, Concept Drift 취약

4세대 (Foundation Model, 2023~현재)

  • Chronos-2 (Amazon), TimesFM 2.5 (Google), Moirai (Salesforce)
  • 장점: 일반화 능력, 빠른 배포, Zero-shot
  • 단점: 높은 초기 계산 비용, 설명 가능성 제한

8. TSAD 최신 연구 동향

8.1 TSAD란?

Time Series Anomaly Detection(TSAD) 는 시계열 데이터에서 정상 패턴으로부터 이탈한 지점이나 구간을 자동으로 식별하는 기술입니다.

정상 패턴:  ─────╱╲─────╱╲─────╱╲─────
Point:      ─────╱╲──█──╱╲─────╱╲─────   (단일 스파이크)
Level Shift:─────╱╲────────────╱╲─────   (기준선 변화)
Contextual: ─────╱╲─────╱╲─█───╱╲─────   (계절성 맥락에서 이상)
Collective: ─────╱╲──█████──╱╲────────   (연속 이상 구간)

8.2 TSAD의 3대 핵심 도전

평가의 어려움 — 충격적 발견 (VLDB 2022)

“Towards a Rigorous Evaluation of Time-Series Anomaly Detection” 연구에서 기존 벤치마크의 무작위 분류기(random classifier)가 SOTA 모델과 비슷한 성능을 보이는 경우가 있었습니다. 널리 쓰이던 “point-adjust” 평가 방식의 허점 때문이었습니다.

8.3 주요 TSAD 벤치마크

벤치마크규모특징
TSB-UAD1,980개 시계열, 18개 알고리즘공정한 표준화 평가
TimeEval700+ 데이터셋, 70개 알고리즘도커 기반 재현 가능 평가
TSB-AD (NeurIPS 2024)1,070개 시계열, 40개 알고리즘통계 방법 vs 딥러닝 대규모 비교

8.4 TSAD 알고리즘 분류


9. CrossAD — 스케일 경계를 넘는 이상 탐지 (NeurIPS 2025)

9.1 해결하는 문제

기존 TSAD의 중요한 한계는 고정 윈도우 + 단일 스케일 문제입니다.
슬라이딩 윈도우 방식은 창 바깥의 맥락을 활용하지 못하고, 단일 해상도로만 패턴을 보기 때문에 다양한 스케일의 이상 패턴을 놓칩니다.

AIOps에서 이는 다음과 같은 문제를 유발합니다:

  • 1분 단위 메트릭에서 포착되지 않는 이상이 5분 단위에서는 뚜렷하게 보이는 경우
  • 좁은 시간 창이 장기 맥락(주간 패턴, 배포 사이클)을 차단하는 경우
  • 이상이 발생할 때 스케일 간 관계가 정상 때와 다르게 변화하는 특성 미활용

9.2 CrossAD의 핵심 아이디어

핵심 기술
1. Cross-scale Reconstruction

거친 해상도(coarse) 시계열에서 세밀 해상도(fine-grained)를 재구성하여,
스케일 간 연관성을 명시적으로 학습

  1. Cross-window Modeling (Query Library)

전역 멀티스케일 컨텍스트를 유지하는 쿼리 라이브러리로 고정 윈도우 한계 극복

  1. Dynamic Cross-scale Associations

이상 발생 시 스케일 간 관계가 어떻게 변화하는지 동적으로 모델링

9.3 기존 방법과 차별점

특성기존 단일 스케일CrossAD
스케일 처리단일 해상도 독립 처리멀티스케일 교차 연관 학습
컨텍스트 활용고정 창 내부만전역 쿼리 라이브러리로 확장
이상 패턴 인식스케일별 독립 판단스케일 간 동적 변화 활용
모델 복잡도스케일별 별도 모델 또는 고정 창단일 통합 모델

실제 성과

10. Forecasting Foundation Model 개요

10.1 Foundation Model이란

NLP에서 GPT·BERT가 수백억 텍스트로 사전 학습된 후 다양한 태스크에 재사용되듯,
시계열 Foundation Model은 같은 아이디어를 숫자 데이터에 적용한 것입니다.

기존:   에너지 → 에너지 모델 / 트래픽 → 트래픽 모델 / CPU → CPU 모델
FFM:    에너지·날씨·금융·IoT·트래픽 등 수억 시계열로 사전 학습
        → 처음 보는 서버 CPU 데이터도 즉시 예측 가능
구분Task-Specific 모델Foundation Model
학습 데이터특정 도메인 (수천~수만)수십억 다양한 시계열
신규 태스크재학습 필요Zero-shot 즉시 적용
유지보수도메인별 모델 관리단일 모델 관리
Concept Drift재학습해야 적응사전 학습 패턴으로 자동 적응

10.2 “Foundation”인 이유 — 방대한 다양성

핵심은 모델의 크기가 아니라 도메인의 다양성입니다. 에너지·교통·금융·클라우드 운영·날씨·웹 트래픽 등 수십억 개의 실제 시계열로 학습하여 “시계열이 일반적으로 어떻게 생겼는지”를 이미 알고 있습니다.

마치 수십 년간 다양한 분야의 데이터를 본 전문가처럼, 처음 보는 데이터도 기존 패턴에서 유추해 예측합니다.

10.3 Zero-Shot 예측

Zero-Shot Forecasting은 모델이 특정 데이터셋을 한 번도 본 적 없어도 예측하는 능력입니다.

전통적 시계열 모델
  1. 데이터 수집 → 2. 피처 엔지니어링 → 3. 모델 훈련
  → 4. 검증·튜닝 → 5. 배포
  → 최소 수일~수주

FFM Zero-Shot
  1. 최근 히스토리 준비 → 2. FFM에 입력 → 3. 즉시 예측
  → 수초 이내

10.4 FFM 생태계 (2025~2026)

모델개발사파라미터특징오픈소스
Chronos-2Amazon120M다변량+공변량, Group AttentionO
TimesFM 2.5Google200M16K 컨텍스트, XReg 공변량O
Moirai 2.0Salesforce11MDecoder-only, Multi-token predictionO
TiRexNX-AI35MxLSTM 기반, Transformer 비의존O
TimeGPTNixtla-API 서비스, 이상탐지 내장X (상용)
Lag-LlamaServiceNow~10M확률론적, Llama 기반O
MOMENTCMU385M다목적 (예측·분류·이상탐지 직접 지원)O

11. Chronos-2 (Amazon)

논문: Chronos-2: From Univariate to Universal Forecasting (arXiv:2510.15821, 2025)
GitHub: amazon-science/chronos-forecasting

11.1 v1 → v2: 무엇이 바뀌었나

Chronos v1(2024)의 핵심 한계는 단변량만 처리 가능이었습니다. CPU 하나만 보고 예측할 수는 있지만, “CPU + 메모리 + 배포 여부”를 함께 고려하는 것은 불가능했습니다.

Chronos-2는 이 한계를 없앴습니다. 제목 “From Univariate to Universal”이 이를 표현합니다.

항목Chronos v1Chronos-2
지원 입력단변량단변량 + 다변량 + 공변량
아키텍처T5 인코더-디코더T5 인코더 전용
분위수 수9개21개 (0.01 ~ 0.99)
최대 컨텍스트2,048 토큰8,192 토큰
핵심 메커니즘Patch-basedGroup Attention (신규)
파라미터 수205M (Base)120M

11.2 아키텍처 — 시계열의 언어화

Chronos의 핵심 아이디어는 시계열 값을 토큰으로 변환해 언어 모델처럼 처리하는 것입니다.

11.3 Group Attention — 핵심 혁신

일반 Attention이 하나의 시계열 내 시간 흐름을 처리한다면,
Group Attention은 여러 시계열 간의 관계를 학습합니다.

이를 통해:

  • 단변량: 시계열 1개 → 기존 방식과 동일
  • 다변량: 연관된 여러 시계열을 하나의 그룹으로 처리
  • 공변량 포함: 타깃 시계열 + 외부 변수(배포 이벤트 등)를 함께 그룹화

11.4 벤치마크 성능

벤치마크태스크 수Chronos-2 승률2위 모델
fev-bench100개90.7%TiRex (80.8%)
GIFT-Eval97개81.9%TimesFM-2.5 (77.5%)
Chronos Benchmark II27개79.8%TiRex (70.4%)

12. TimesFM 2.5 (Google)

논문: A decoder-only foundation model for time-series forecasting (arXiv:2310.10688, ICML 2024)
GitHub: google-research/timesfm

12.1 버전 계보

버전파라미터컨텍스트주요 특징
1.0200M512최초 decoder-only 시계열 FM
2.0500M2,048GIFT-Eval 1위 (2025 초)
2.5200M16,384파라미터 60% 감소, 컨텍스트 8배 확장, XReg

주목: 2.5는 파라미터를 절반 이하로 줄이면서 성능은 향상되었습니다. 모델 크기와 성능이 비례하지 않는다는 사례입니다.

12.2 아키텍처 — Decoder-Only Transformer

GPT와 유사한 구조를 시계열에 적용합니다.

12.3 16K 컨텍스트가 AIOps에서 중요한 이유

TimesFM 1.0 (512 스텝, 1분 단위): 약 8.5시간 히스토리
TimesFM 2.5 (16,384 스텝, 1분 단위): 약 11.4일 히스토리

→ 주간 패턴(월요일 트래픽 급증 등) 충분히 학습
→ 배포 주기(보통 1~2주) 커버
→ 드물게 발생하는 월말 배치 작업 패턴도 인식

실무 참고:
16,384는 아키텍처상 지원 최대값이며, 기본 설정(max_context=1024)은
약 17시간(1분 단위)입니다.
장기 패턴이 필요한 경우 max_context를 늘릴 수 있으나,
메모리와 추론 비용도 증가합니다.

12.4 XReg — 공변량 지원

TimesFM 2.5의 XReg(External Regressor) 는 4가지 유형의 공변량을 지원합니다

유형설명AIOps 예시
Static Categorical시리즈당 고정 카테고리서비스 유형 (API/배치/스트리밍)
Static Numerical시리즈당 고정 숫자서버 티어, SLO 임계치
Dynamic Categorical시간에 따라 변하는 카테고리배포 상태 (배포중/안정/롤백)
Dynamic Numerical시간에 따라 변하는 숫자동시 접속자 수, 큐 깊이
import timesfm

model = timesfm.TimesFM_2p5_200M_torch.from_pretrained(
    "google/timesfm-2.5-200m-pytorch"
)

# 공변량 포함 예측
forecast = model.forecast_with_covariates(
    inputs=historical_metrics,
    dynamic_numerical_covariates={
        "deployment_flag": deployment_series,
        "upstream_latency": upstream_latency,
    },
    dynamic_categorical_covariates={
        "event_type": event_type_series,
    },
    static_categorical_covariates={
        "service_tier": ["critical"],
    },
)

13. FFM 기반 간접 이상 탐지

13.1 핵심 원칙: Forecasting FFM은 예측 기반 간접 탐지를 사용한다

Chronos-2와 TimesFM 2.5는 “이것은 이상이다”라고 직접 말하지 않습니다.
이 모델들은 forecasting 전문 모델로, 이상 탐지는 예측 결과를 이용한 간접 탐지 경로로 이루어집니다.

참고: MOMENT(CMU)나 TimeGPT(Nixtla)처럼 이상 탐지를 직접 수행하도록 설계된 FFM도 존재합니다.
MOMENT는 사전 학습된 reconstruction head로 zero-shot 이상 점수를 직접 출력하고,
TimeGPT는 anomaly_detection() API로 이상 여부를 직접 플래그합니다.
본 섹션에서 소개하는 간접 탐지는 Chronos-2, TimesFM 2.5 같은 순수 forecasting FFM에 해당합니다.

13.2 예측 구간이란

FFM의 예측 결과는 단일 숫자가 아니라 확률 분포입니다.

예측 시각: 2025-04-16 14:00
타깃: payment-service CPU 사용률

FFM 예측:
  P10 = 42%  (하위 10%)
  P25 = 47%
  P50 = 53%  (중앙값)
  P75 = 59%
  P90 = 66%  (상위 10%)

실제 관측값: 87%
→ P90(66%)을 크게 초과 → 이상 신호

마치 기상청에서 “최저 18°C ~ 최고 26°C 예상”이라고 했는데 35°C가 나오면 이상 기상인 것과 같습니다.

13.3 AIOps 파이프라인에서의 위치

13.4 실용적 서빙 아키텍처

FFM을 실시간 탐지에 직접 사용하면 레이턴시 문제가 생깁니다.
실무에서는 배치 예측 + 캐싱 방식을 권장합니다

이 아키텍처의 장점

  • 실제 탐지 경로에서 FFM 추론 비용 제거
  • 예측 구간이 캐싱되어 밀리초 수준 탐지 가능
  • GPU 자원을 배치로 효율적 사용

13.5 Conformal Prediction — 예측 구간의 통계적 보장

FFM의 예측 구간이 의미 있으려면 “P90 구간”이 실제로 90%를 커버해야 합니다.
Conformal Prediction은 분포 가정 없이 통계적으로 보증된 Coverage를 제공하며, 2026년 현재 FFM 예측 구간 보정의 산업 표준으로 자리 잡고 있습니다. ICLR 2026 채택 연구(“Adaptive Conformal Anomaly Detection with FFM”)는 False Alarm Rate를 수학적으로 제어 가능하게 만들었습니다.

상세: Conformal Prediction의 기법별 비교(Split/Adaptive/CPTC)와 학습 리소스는 보조 자료 §7을 참고하세요.


14. Covariate-informed Forecasting 심화

14.1 Covariate란?

Covariate(공변량) 는 예측 대상 시계열 외에 예측에 영향을 주는 추가 정보입니다.

일반 예측:      ŷ(t) = f(y(t-1), y(t-2), ..., y(t-n))
Covariate 예측: ŷ(t) = f(y(t-1), ..., y(t-n), x₁(t), x₂(t), ..., xₖ(t))

14.2 AIOps에서의 4가지 핵심 Covariate

14.3 배포 이벤트 — 가장 효과적인 Covariate

배포 Covariate 없는 탐지:
응답시간: ───50ms──[배포]──200ms────100ms─────
탐지:     정상        ████이상████  정상    ← 잘못된 경보!

배포 Covariate 포함 탐지:
응답시간: ───50ms──[배포=1]──200ms────100ms─────
탐지:     정상        정상(배포 중)  정상    ← 올바른 판단!

14.4 토폴로지 의존성 — 연쇄 반응 예측

14.5 Covariate의 False Positive 감소 효과

Covariate 유형FP 감소율적용 난이도
배포 이벤트30~50%낮음 (CI/CD 연동)
캘린더 효과20~35%매우 낮음
토폴로지 의존성25~40%중간 (Service Mesh 필요)
인프라 변화15~25%높음 (CMDB 연동)
모든 Covariate 결합50~70%높음

15. 종합 비교 — 전통 vs FFM 기반 이상 탐지

15.1 상세 비교표

비교 차원규칙 기반통계 (ARIMA/Prophet)ML (LSTM/IF)Foundation Model
학습 방식규칙 수동 작성시리즈별 피팅도메인별 학습대규모 사전학습 + Zero-shot
Concept Drift수동 규칙 업데이트주기적 재피팅재학습 파이프라인자연스러운 적응
Zero-shotN/A불가불가가능
Covariate 지원규칙에 하드코딩Prophet: 제한적피처로 입력TimesFM 2.5: 완전 지원
설명 가능성매우 높음높음중간낮음 (black-box)
운영 비용규칙 유지 높음재학습 시 낮음재학습 인프라추론 GPU, 관리 낮음
데이터 요구량없음1~2시즌수천~수만 포인트없음 (Zero-shot)
확장성 (시리즈 수)낮음 (규칙 폭발)중간높음매우 높음
실시간 처리매우 빠름빠름중간느림 (GPU)
적합 시나리오컴플라이언스안정적·계절성 명확데이터 풍부다양한 도메인, 새 서비스

15.2 방법론 선택 가이드


16. 실무 적용 로드맵

Foundation Model이 아무리 뛰어나도 “빅뱅” 방식의 전체 교체는 위험합니다.
점진적 3단계 접근을 권장합니다.

Phase 1: 전통 기법으로 기반 구축

주요 작업
1. 모든 서비스에 Golden Signals (Latency, Traffic, Errors, Saturation) 커버
2. 기본 통계 탐지 (z-score, Percentile) 도입
3. CI/CD → 이벤트 수집 파이프라인 구축 (배포 이벤트 저장)
4. 현재 False Positive Rate, MTTD, MTTR 측정 (기준선 확립)

성공 기준: Golden Signals 커버리지 100%, Alert Storm 30% 감소

Phase 2: FFM 도입으로 보완

주요 작업:
1. 잘 아는 메트릭 3~5개로 FFM 파일럿
2. 배포 이벤트를 Covariate로 연동
3. A/B 비교: Shadow mode(FFM 결과 로그만 기록, 실제 경보는 Phase 1 사용)
4. 2~3개월 검증 후 점진적 비중 이동

성공 기준: FFM Precision > 85%, 배포 관련 FP 50% 감소

Phase 3: 하이브리드 파이프라인

핵심 설계 원칙

def ensemble_anomaly_score(rule_score, stat_score, ffm_score,
                           has_deployment_event=False):
    """상황에 따른 동적 가중치 앙상블"""
    if has_deployment_event:
        # 배포 중에는 FFM(covariate 포함) 가중치 높임
        weights = {"rule": 0.1, "stat": 0.2, "ffm": 0.7}
    else:
        weights = {"rule": 0.3, "stat": 0.3, "ffm": 0.4}

    return (weights["rule"] * rule_score +
            weights["stat"] * stat_score +
            weights["ffm"] * ffm_score)

성공 기준: FP Rate < 10%, MTTD 50% 감소, 야간 호출 70% 감소

단계별 리소스 요약

항목Phase 1Phase 2Phase 3
팀 구성1~2 SRE+1 ML 엔지니어+1 데이터 엔지니어
인프라Prometheus/Grafana+ GPU 서버 (소형)+ GPU 클러스터
기간3~6개월6~9개월지속적 개선
핵심 도구Prometheus, AlertManagerChronos, TimesFMCrossAD, 커스텀 앙상블
예상 효과기반 구축Alert 30% 감소Alert 70% 감소

16-1. 2026년 핵심 트렌드: Agentic AIOps

본문에서 학습한 전통 AIOps + FFM 탐지는 “고품질 알림을 만드는” 레이어입니다.
2025~2026년에 급부상한 Agentic AIOps는 알림을 받아 스스로 진단하고 행동까지 완료하는 다음 단계입니다.

Agentic AIOps란

LLM 기반 AI 에이전트가 이상 탐지 → RCA → Runbook 실행 → 복구까지 자율적으로 수행하는 패러다임입니다.
단일 에이전트가 아닌 Multi-Agent 오케스트레이션이 핵심으로, 탐지/진단/복구 전문 에이전트가 협업합니다.

2025~2026 상용 사례

플랫폼기능출시
Dynatrace IntelligenceDeterministic AI + Agentic AI 결합, 사전 예방적 운영2025.02
PagerDuty SRE Agent자율 인시던트 조사, MCP 기반 멀티에이전트 협업2025 H2 GA
AWS DevOps AgentCloudWatch 알람 → 자동 진단 → 복구 (4분 이내)2025
New Relic SRE AgentMCP 서버로 ServiceNow/Atlassian/PagerDuty 연동2026
Azure SRE AgentMCP 서버로 Dynatrace/New Relic/Datadog 연동 자동 복구2026

현재 한계

  • OpenRCA(Microsoft, ICLR 2025) 벤치마크: 최고 모델도 11.34% 해결률 — 자율 복구는 아직 초기 단계
  • 고위험 조치에는 여전히 Approval Gate(승인 게이트) 필수

상세: Agentic AIOps의 심화 분석, MCP(Model Context Protocol) 표준, OWASP 보안 고려사항은 보조 자료 §16, §23을 참고하세요.

참고: AIOpsLab (MLSys 2025) / OpenRCA (ICLR 2025) / AWS DevOps Agent


17. 핵심 정리

3주차 핵심 질문과 답

질문
Deduplication은 왜 필요한가?DB 장애 1건이 240개 알림으로 폭발하는 것을 1건으로 압축하는 첫 번째 방어선
정적 임계치의 근본 문제는?맥락 무시 — 같은 CPU 80%가 낮과 밤에 다른 의미를 가짐
Dynamic Baselining은 무엇인가?시간대·계절성을 학습하여 “지금 이 시간에 정상인 범위”를 자동으로 계산
Concept Drift가 위험한 이유?학습 당시의 “정상”이 6개월 후에는 “정상”이 아니게 되어 모델이 무효화
FFM이 Foundation인 이유?수십억 다양한 시계열로 사전 학습 — 처음 보는 데이터에도 즉시 예측
FFM은 이상을 직접 분류하는가?모델에 따라 다릅니다. Chronos-2·TimesFM 2.5 같은 forecasting FFM은 간접 탐지. MOMENT·TimeGPT는 직접 탐지도 지원
Covariate-informed 예측이 중요한 이유?배포 이벤트·토폴로지 의존성을 입력으로 받아 상황별 False Positive 50~70% 감소
Chronos-2의 핵심 혁신?Group Attention — 단변량에서 다변량+공변량으로 확장
TimesFM 2.5의 핵심 개선?16K 컨텍스트 + XReg — 11일 히스토리 활용, 4가지 공변량 유형 지원
CrossAD (NeurIPS 2025)가 해결하는 문제?고정 윈도우 + 단일 스케일 한계 — Cross-scale reconstruction과 Cross-window modeling으로 다해상도 이상 패턴 탐지
전통 방법을 버려야 하나?아닙니다. 하이브리드 접근이 최선 — 규칙/통계(빠른 탐지) + FFM(정확한 탐지)

종합 흐름


18. 기타 (같이 알면 좋은 개념)


19. 토론 — 동적 Baselining & 예측 구간 이상 임계

2주차 본문을 바탕으로 두 가지 토론 질문에 답을 정리합니다.

19.1 두 질문이 묻는 것

Q1. CPU 동적 baselining, 어느 서비스부터 적용할 것인가

  • 의도: "모든 지표에 AI를 적용할 수는 없다"는 현실을 이해하고 있는가.
  • 핵심: 모든 마이크로서비스에 동적 baselining을 걸면 Alert Fatigue 가 발생합니다. 비즈니스 중요도가 높고 정적 임계치로 오탐이 잦은 웹 서비스 레이어·트래픽 유입 구간부터 우선 적용할 기준을 세울 수 있어야 합니다.

Q2. 예측 구간(PI) 이탈을 이상으로 정의할 때 임계를 어떻게 정할 것인가

  • 의도: 예측값 자체보다 신뢰 구간(Confidence Interval) 을 어떻게 관리할 것인가.
  • 핵심:
    • 통계적 접근 — 3σ 원칙 vs 분위수(Quantile) 기반.
    • 실무적 접근 — 서비스 성격별 민감도 조절(결제는 좁은 구간, 로그 수집은 넓은 구간).
    • 지속성 — 단발성 이탈은 무시, N회 연속 이탈 시에만 이상으로 처리.

19.2 Q1 답 — CPU 동적 Baselining 우선순위

결론: CPU 원시값(raw %)이 아니라, CPU 포화가 사용자·비즈니스에 드러나는 지표부터 시작합니다.

파일럿 메트릭 선정 체크리스트

조건설명
시즌성이 명확한가평일/주말, 주간/야간 패턴이 있어야 baseline이 학습할 대상이 생깁니다
트래픽과 상관이 강한가Request Rate를 Covariate로 붙여 FP를 추가로 감소시킬 수 있어야 합니다
표본 수가 충분한가저트래픽 엔드포인트는 분위수가 불안정해 PI 폭이 과도하게 넓어집니다
알림 오너가 명확한가고칠 사람이 없는 알람은 Alert Fatigue만 가중시킵니다
서비스 단위로 수집 가능한가K8s 환경에서 Host 평균은 리밸런싱으로 baseline이 요동칩니다

환경별 상위 5 메트릭

순위모바일 (APM/RUM)서버 (인프라/앱)일반 서비스 (Golden Signals)
1앱 시작 시간 (TTID/TTFD)Pod CPU + Throttling %Request Rate (Traffic)
2User Action Duration (로그인·결제)API Gateway·핵심 서비스 CPULatency P95/P99
3Frozen Frames / UI JankDB·Cache CPU SaturationError Rate / SLO Burn
4ANR / App Hang / Crash RateRuntime CPU (JVM/Node + GC)Service CPU Saturation
5앱 버전·OS별 Hot ViewWorker / Consumer CPUDependency Saturation (Pool/Queue)

왜 이 순서인가
모바일에서 raw CPU %는 우선 지표가 아닙니다. UX 증상이 먼저 신호를 줍니다(TTID/TTFD·Frozen Frames는 Datadog RUM·Android Jetpack에서 표준, Dynatrace는 명칭·지원 범위가 일부 다름). 서버에서 Host 평균 CPU는 K8s 리밸런싱에 흔들려 후순위입니다. 일반 서비스는 Traffic을 가장 먼저 baseline해야 CPU 해석에 맥락이 생깁니다.


19.3 Q2 답 — 예측 구간 이탈 임계 설계

결론: 단일 임계치는 반드시 실패합니다. 5가지 조건을 동시에 통과할 때에만 알람을 발생시키는 다층 게이트를 권장합니다.

PI 이상 탐지 도입 체크리스트

조건설명
시즌성이 명확한가시즌성 없는 메트릭은 FFM의 장점이 드러나지 않습니다
기존 정적 임계의 오탐이 기록되어 있는가Ground Truth가 있어야 A/B 비교로 ROI 증명이 가능합니다
배포 주기가 너무 짧지 않은가하루 수 차례 배포되는 서비스는 Concept Drift 발생이 잦아 baseline 수렴 난이도가 급증하고 재학습 부하가 큽니다 (배포 태그를 Covariate로 넣어 완화 가능)
SLO 직결 메트릭이 아닌가SLI에서 오탐 1회에 신뢰가 깨집니다. 내부 리소스 메트릭(CPU, Memory)부터 시작

5단 게이트

게이트쉬운 말WarningMajorCritical
① Quantile얼마나 드문 값?P90/P10P95/P5P99/P1
② Magnitude예상 범위를 넘은 정도|z| > 2|z| > 2.5|z| > 3
③ Duration얼마나 오래?5분 또는 3/5 포인트10분15분
④ Calibration모델 신뢰도목표 Coverage ± 2%p 유지동일목표 대비 5%p 이상 하락 시 재보정
⑤ Business중요도일반SLO Burn 동반P1 서비스 + Error 동반

서비스 성격별 민감도 (이중 기준)

서비스 성격프리셋이유
결제·로그인·인증P90 + 2~3분FN(미탐) 방지 우선
일반 APIP95 + 5분기본값
로그 수집기·배치P99 + 15분FP(오탐) 억제 우선

19.4 핵심 정리

질문
CPU 메트릭부터 baseline하면 되는가?아닙니다. CPU 포화의 증상(Frozen Frames, Throttling, Latency)이 먼저 신호를 줍니다
모든 서비스에 동적 baselining을 걸어도 되는가?아닙니다. 5가지 조건을 만족하는 1~2개 서비스부터 단계적으로 적용합니다
3σ vs Quantile, 어느 쪽을 쓸 것인가?둘 다 사용합니다. 후보군은 Quantile(P95/P99) 이탈로 걸러내고, Magnitude는 z-score(|z| > 2/2.5/3)로 강도를 판정합니다
민감도는 어떻게 조절하는가?결제는 P90+2~3분, 일반은 P95+5분, 로그 수집은 P99+15분 이중 기준
단발성 이탈은 어떻게 필터링하는가?Duration 게이트로 해결. 3/5 포인트 또는 5분 이상 지속 시에만 알람
Concept Drift는 어떻게 대응하는가?Rolling Conformal Coverage가 빠지면 알람 억제 + 재보정 우선

공통 교훈

  1. 어디에 적용할지를 먼저 정합니다. 모든 메트릭에 한 번에 도입하지 않습니다.
  2. 조건을 쌓아 알람을 설계합니다. 단일 임계·단일 기준은 반드시 실패합니다.
  3. 비즈니스 중요도에 따라 민감도를 다르게 둡니다. 하나의 정책으로 모든 서비스를 덮으려 하지 않습니다.

20. 참고 자료

논문 — Forecasting Foundation Model

제목저자/기관발표링크
Chronos-2: From Univariate to Universal ForecastingAnsari et al. (Amazon)2025arXiv:2510.15821
Chronos: Learning the Language of Time SeriesAnsari et al. (Amazon)TMLR 2024arXiv:2403.07815
A decoder-only foundation model for time-series forecasting (TimesFM)Das et al. (Google)ICML 2024arXiv:2310.10688
Unified Training of Universal Time Series Forecasting Transformers (Moirai)Woo et al. (Salesforce)ICML 2024arXiv:2402.02592
Lag-Llama: Towards Foundation Models for Probabilistic Time Series ForecastingRasul et al.2023arXiv:2310.08278
MOMENT: A Family of Open Time-series Foundation ModelsGoswami et al.ICML 2024arXiv:2402.03885

논문 — TSAD (시계열 이상 탐지)

제목발표링크
CrossAD: Time Series Anomaly Detection with Cross-scale Associations and Cross-window ModelingNeurIPS 2025arXiv:2510.12489
TSB-AD: The Elephant in the Room (40개 알고리즘 벤치마크)NeurIPS 2024NeurIPS Proceedings
TSB-UAD: End-to-End Benchmark for Univariate TSADVLDB 2022ACM DL
Anomaly Transformer: Time Series Anomaly Detection with Association DiscrepancyICLR 2022arXiv:2110.02642
Towards a Rigorous Evaluation of Time-Series Anomaly DetectionAAAI 2022arXiv:2109.05257
Deep Learning for Time Series Anomaly Detection: A SurveyACM CSUR 2023arXiv:2211.05244
Time Series Foundational Models: Their Role in Anomaly Detection2024arXiv:2412.19286

논문 — 서베이 & Concept Drift

제목발표링크
A Survey on Time Series Foundation Models2024arXiv:2405.02358
Large Language Models for Time Series: A Survey2024arXiv:2402.01801
Concept Drift SurveyFrontiers in AI 2024Frontiers
AIOps: Real-World Challenges and Research InnovationsICSE 2019IEEE Xplore

GitHub 레포지토리

레포지토리설명
amazon-science/chronos-forecastingChronos / Chronos-2 공식
google-research/timesfmTimesFM 공식
SalesforceAIResearch/uni2tsMoirai 공식
time-series-foundation-models/lag-llamaLag-Llama 공식
decisionintelligence/CrossADCrossAD 공식
TheDatumOrg/TSB-UADTSB-UAD 벤치마크
TheDatumOrg/TSB-ADTSB-AD 벤치마크
TimeEval/TimeEvalTimeEval 평가 프레임워크
thuml/Time-Series-Library포괄적 시계열 모델 라이브러리
yzhao062/pyodPython 이상 탐지 라이브러리
salesforce/MerlionSalesforce 시계열 ML 프레임워크
unit8co/darts통합 시계열 예측 라이브러리
mala-lab/Awesome-Anomaly-Detection-Foundation-Models이상 탐지 FM 논문 모음

공식 문서 — 상용 플랫폼

서비스링크
Datadog Anomaly Detectiondocs.datadoghq.com/monitors/types/anomaly
Dynatrace Davis AIdocs.dynatrace.com/docs/discover-dynatrace/platform/davis-ai
AWS CloudWatch Anomaly Detectiondocs.aws.amazon.com/AmazonCloudWatch
PagerDuty Alerts & Deduplicationsupport.pagerduty.com/main/docs/alerts
PagerDuty Time-Based Alert Groupingsupport.pagerduty.com/main/docs/time-based-alert-grouping
BigPanda Alert Noise Reductionbigpanda.io/blog/alert-noise-reduction-strategies
BigPanda Event Correlationbigpanda.io/blog/event-correlation

기술 블로그

제목출처링크
Introducing Chronos-2Amazon Scienceamazon.science/blog
TimesFM Foundation Model for ForecastingGoogle Researchresearch.google/blog
TimesFM-2.5 External Covariates TutorialAI Horizon Forecastaihorizonforecast.substack.com
Anomaly Detection with TimeGPTNixtlanixtla.io/blog
AIOps: What We Learned in 2025Thoughtworksthoughtworks.com
profile
DevOps Engineer

0개의 댓글