https://velog.io/@gjrjr4545/AIops-2-1
해당 문서의 주제를 더 깊이 이해하기 위해 함께 공부하면 좋은 연관 개념들입니다.
또한 해당 문서는 AI의 도움을 받아 문서작성을 진행하였습니다.

z-score 이상 탐지는 “관측값이 정상 분포에서 나왔을 확률”을 검정하는 구조입니다. p-value와 유의수준 개념 없이는 임계치 선정을 이론적으로 정당화할 수 없습니다. 본문 2.3절의 z-score, STL Residual의 수학적 배경입니다.
| 연결 포인트 | z-score 임계치, STL Residual 정규성 가정 |
|---|---|
| 리소스 | StatQuest — Hypothesis Testing |
ADF 검정으로 정상성을 확인하고, ACF/PACF로 자기상관 구조를 파악하며, STL로 Trend + Seasonal + Residual을 분리하는 것은 ARIMA·SARIMA·Dynamic Baselining의 공통 전처리 단계입니다. 본문 2.4절의 STL 설명을 수학적으로 이해하기 위한 필수 기초입니다.
| 연결 포인트 | Dynamic Baselining, SARIMA, Datadog Agile |
|---|---|
| 리소스 | Forecasting: Principles and Practice 3e (무료) |
Chronos-2의 Group Attention과 TimesFM 2.5의 Decoder-Only Causal Self-Attention + RoPE는 NLP Transformer의 직접 응용입니다. 두 모델의 구조적 차이(인코더 전용 vs 디코더 전용)를 이해하려면 Attention 메커니즘이 필수입니다.
| 연결 포인트 | Chronos-2 Group Attention, TimesFM 2.5 Causal Self-Attention |
|---|---|
| 리소스 | Illustrated Transformer (Jay Alammar) / iTransformer 논문 |
absent(), rate() 함수의 함정(카운터 리셋, 슬롯 불일치)과 Recording Rule로 z-score 근사 및 분위수 기반 임계치를 사전 계산하는 방법. 본문의 정적 임계치 한계와 Dynamic Baselining을 직접 실습할 수 있는 핵심 기술입니다.
| 연결 포인트 | Dynamic Baselining 실습, Missing Data 감지 (absent_over_time) |
|---|---|
| 리소스 | Prometheus Alerting Best Practices |
Flink의 EventTime Window, Watermark, CEP(Complex Event Processing) 라이브러리로 본문 3절의 “5분 창 내 동일 출처 이벤트 그룹핑”을 실시간 스트리밍으로 구현합니다. 초당 수천 건 이벤트 처리 시 필수입니다.
| 연결 포인트 | Temporal Correlation, Noise Reduction 파이프라인 |
|---|---|
| 리소스 | Apache Flink CEP 공식 문서 |
OpenTelemetry Collector의 filter, transform, groupbyattrs 프로세서를 조합해 본문 4절의 Noise Reduction 파이프라인(필터링 → Dedup → Enrichment)을 코드로 구현합니다. 배포 이벤트를 메트릭에 Covariate로 부착하는 실무 패턴도 포함됩니다.
| 연결 포인트 | Noise Reduction 파이프라인, Covariate 전처리 |
|---|---|
| 리소스 | OTel Collector Processors 공식 문서 |
FFM이 생성하는 예측 구간의 신뢰도는 학습 데이터 분포에 의존합니다. Conformal Prediction은 분포 가정 없이 통계적으로 보증된 Coverage(예: 90% 구간에 실제값이 90% 확률로 포함)를 보장합니다. 어떤 FFM 위에도 씌울 수 있는 통계적 보정 레이어로, 실무에서 False Alarm Rate를 직접 제어할 수 있게 합니다.
2026년 위상: CPTC(NeurIPS 2025)가 비정상 시계열에서의 CP를 해결했고,
ICLR 2026에서 "Adaptive Conformal Anomaly Detection with FFM" 논문이 채택되면서
FFM 예측 구간 보정의 산업 표준으로 자리 잡고 있습니다.
| 연결 포인트 | FFM 간접 탐지 경로(13절)의 예측 구간 신뢰도 보증 |
|---|---|
| 리소스 | A Gentle Introduction to Conformal Prediction / CPTC (NeurIPS 2025) / CP: A Data Perspective (ACM CSUR 2025) |
Chronos-2(21개 분위수)와 TimesFM 2.5의 Quantile Head는 모두 분위수 회귀 기반 확률 예측입니다. MSE가 아닌 Pinball Loss(분위수 손실)를 최소화하여 조건부 분포를 추정하는 원리를 이해해야 “예측 구간 밖 = 이상”을 수식 수준에서 파악할 수 있습니다.
| 연결 포인트 | FFM 간접 탐지 경로(13절)의 수학적 배경 |
|---|---|
| 리소스 | scikit-learn Quantile Regression 튜토리얼 |
Anomaly Detection이 “점·구간의 이상”을 탐지한다면, Change Point Detection은 “통계적 성질이 구조적으로 바뀐 시점”을 찾습니다. Concept Drift의 Abrupt 유형이 바로 Change Point이며, 배포 이벤트 전후 모델 재학습 기준을 자동화하려면 PELT·BOCPD 알고리즘이 필요합니다.
교차검증: 2개 이상 에이전트가 독립적으로 추천한 핵심 주제
| 연결 포인트 | Concept Drift Abrupt 유형(6.1절), 재학습 트리거 자동화 |
|---|---|
| 리소스 | ruptures 라이브러리 / BOCPD 원 논문 |
KL Divergence는 “현재 분포가 정상 분포에서 얼마나 멀어졌는가”를 정량화합니다. VAE 기반 TSAD와 CrossAD의 손실 함수에 KL 항이 등장하며, Anomaly Score를 분포 간 거리로 해석하는 데 핵심입니다.
| 연결 포인트 | CrossAD Contrastive Loss, VAE 기반 TSAD |
|---|---|
| 리소스 | Visual Information Theory (Chris Olah) |
본문 16절 Phase 2의 “Shadow mode(FFM 결과 로그만 기록, 실제 경보는 기존 방식)”를 실제로 구현하는 MLOps 패턴입니다. 모델 레지스트리(MLflow), Champion/Challenger 비교, Concept Drift 감지 지표(PSI, KS test) 설정법을 다룹니다.
| 연결 포인트 | Phase 2 로드맵, Concept Drift 대응 |
|---|---|
| 리소스 | MLflow Model Registry / Evidently AI |
Chronos-2, TimesFM 2.5를 프로덕션에서 서빙할 때의 지연시간·비용 최적화. 본문 13.4절의 “배치 예측 + 캐싱” 아키텍처를 구현하려면 NVIDIA Triton의 Dynamic Batching, TensorRT FP16/INT8 quantization이 필수입니다.
| 연결 포인트 | FFM 배치 예측 + 캐싱 아키텍처(13.4절) |
|---|---|
| 리소스 | NVIDIA Triton Inference Server |
이상 탐지 파이프라인의 데이터 레이어. VictoriaMetrics의 높은 압축률, InfluxDB v3의 Columnar 저장(FFM 배치 입력에 유리), TimescaleDB의 Continuous Aggregate(z-score 사전 계산)를 비교합니다. TimesFM 2.5의 16K 컨텍스트 활용 시 히스토리 조회 성능과 직결됩니다.
| 연결 포인트 | FFM 16K 컨텍스트 히스토리 조회, 배치 캐시 저장소 |
|---|---|
| 리소스 | VictoriaMetrics vs InfluxDB 비교 / TimescaleDB Continuous Aggregates |
본문 3절의 Topological Correlation은 “CMDB가 부정확하면 엉뚱한 Root Cause가 나온다”는 한계가 있습니다. Causal Discovery는 CMDB 없이도 데이터에서 인과 그래프를 자동 추출합니다. ICLR 2025 Oral 논문 AERCA는 Granger Causal Discovery와 RCA를 통합했습니다.
교차검증: 2개 이상 에이전트가 독립적으로 추천한 핵심 주제
| 연결 포인트 | Topological Correlation 한계(3.2절), CMDB Stale 문제 |
|---|---|
| 리소스 | AERCA (ICLR 2025) / RealTCD (arXiv:2404.14786) |
모델을 완전히 재학습하지 않고, 데이터 스트림에서 분포 변화를 감지해 점진적으로 적응하는 학습 방법. 본문 6.4절의 “수동 재학습 비용” 문제의 직접적 해결책입니다. METER(VLDB 2024)는 SCD(Static Concept Detector)와 DSD(Dynamic Shift Detector), IEC(Instance-aware Evidential Clustering)를 통합하여 Concept Drift에 점진적으로 적응합니다.
교차검증: 2개 이상 에이전트가 독립적으로 추천한 핵심 주제
| 연결 포인트 | Concept Drift(6.1절), 수동 재학습 비용(6.4절) |
|---|---|
| 리소스 | METER (arXiv:2312.16831) / GitHub: zjiaqi725/METER |
LLM 에이전트가 이상 탐지 → RCA → Runbook 실행 → 복구까지 자율 수행하는 패러다임입니다.
본문에서 학습한 전통 AIOps + FFM 탐지는 “알림을 만드는” 레이어이고, Agentic AIOps는 알림을 받아 스스로 행동까지 완료하는 다음 단계입니다.
2026년 위상: 단순 트렌드가 아닌 AIOps의 핵심 패러다임 전환입니다.
- Dynatrace Intelligence (2025.02) — Deterministic AI + Agentic AI 결합, MTTR 3배 단축
- PagerDuty SRE Agent (2025 H2 GA) — MCP 기반 멀티에이전트 협업
- AWS DevOps Agent — CloudWatch → 자동 진단 → 복구 (4분 이내)
- OpenRCA (Microsoft, ICLR 2025) — 335개 실제 장애 벤치마크, 최고 모델도 11.34% 해결률 → 아직 초기
- OWASP Agentic AI Top 10 (2025.12) — 에이전트 특유의 보안 위협 정의
| 연결 포인트 | Event Correlation → RCA → Remediation 자동화, MCP 도구 통합 |
|---|---|
| 리소스 | AIOpsLab (MLSys 2025) / OpenRCA (ICLR 2025) / AWS DevOps Agent |
레이블 없이 시계열 표현(representation)을 학습하는 방법. Contrastive Learning과 Masked Autoencoder 두 흐름. TSAD 핵심 난제인 “레이블 부족(0.1~1%)” 문제의 직접 해결이며, CrossAD의 Domain-Invariant Feature Extraction의 기반입니다.
교차검증: 2개 이상 에이전트가 독립적으로 추천한 핵심 주제
| 연결 포인트 | CrossAD(9절), TSAD 레이블 부족 문제(8.2절) |
|---|---|
| 리소스 | arXiv:2403.09809 / GitHub: qingsongedu/Awesome-SSL4TS |
과거 인시던트 티켓, Runbook, Post-mortem을 LLM이 실시간 검색해 컨텍스트로 활용하는 기술. 본문 3.3절의 Semantic Correlation을 실무에 확장한 것으로, “3개월 전에도 같은 알림이 있었나? 어떻게 해결했나?”를 자동으로 찾아 MTTR을 줄입니다.
2026년 위상: ServiceNow Now Assist for ITOM, Dynatrace 등 주요 상용 플랫폼에서 표준 기능으로 채택되었습니다.
| 연결 포인트 | Semantic Correlation(3.3절), 포스트모텀 지식 활용 |
|---|---|
| 리소스 | RAG-Based Incident Resolution (arXiv:2409.13707) |
본문 3.2절의 Topological Correlation은 의존성 그래프를 수동 조회하지만, GNN(Graph Attention Network, GraphSAGE)을 사용하면 동적으로 변하는 서비스 메쉬 토폴로지에서 Root Cause Propagation을 자동 학습할 수 있습니다.
| 연결 포인트 | Topological Correlation 자동화(3.2절) |
|---|---|
| 리소스 | Stanford CS224W (무료) |
FFT로 주기성 성분을 주파수 도메인에서 확인하고, Wavelet Transform으로 시간-주파수 동시 분석을 수행하면 STL로 잡지 못하는 비정상 주기 패턴과 CrossAD의 Cross-scale Associations 원리를 이해할 수 있습니다.
| 연결 포인트 | CrossAD Cross-scale(9절), STL의 한계 보완 |
|---|---|
| 리소스 | PyWavelets 공식 문서 |
Chronos의 “시계열을 토큰화”하는 아이디어를 넘어, Wavelet 기반 토크나이저(WaveToken, ICML 2025), 이산 토큰화(TOTEM) 등 다양한 전략이 경쟁 중. Tokenization 전략이 FFM 성능의 병목임을 이해하면 모델 구조를 더 깊이 파악할 수 있습니다.
| 연결 포인트 | Chronos-2 아키텍처(11.2절) 심화 |
|---|---|
| 리소스 | WaveToken (ICML 2025, arXiv:2412.05244) / TOTEM (ICLR 2024, TMLR 2024) |
본문 15.1절에서 Foundation Model의 “설명 가능성 낮음(black-box)”이 약점으로 명시됩니다. SHAP, Attention weight 시각화, LLM 자연어 설명 등으로 이 약점을 보완해 운영자가 FFM의 이상 판정을 신뢰하고 행동할 수 있게 합니다.
| 연결 포인트 | FFM의 설명 가능성 한계(15.1절), Alert Fatigue 감소 |
|---|---|
| 리소스 | Survey on Explainable Anomaly Detection (arXiv:2210.06959) |
LLM 에이전트가 Prometheus, Grafana, CMDB, 티켓 시스템 등을 표준화된 방식으로 호출하기 위한 프로토콜입니다.
2026년 월간 SDK 다운로드 9,700만+ 회로, Agentic AIOps 구현의 핵심 인프라입니다.
Azure SRE Agent, New Relic AI MCP Server 등이 이미 프로덕션에서 활용 중입니다.
| 연결 포인트 | Agentic AIOps(#16), Covariate 전달 표준화, OTel 연동 |
|---|---|
| 리소스 | MCP 공식 사이트 / Azure SRE Agent MCP |
| # | 주제 | 축 | 우선순위 | Week 2 연결 |
|---|---|---|---|---|
| 1 | 확률 분포 & 가설 검정 | 이론 | 필수 | z-score, STL Residual |
| 2 | 시계열 정상성·ACF·STL | 이론 | 필수 | Dynamic Baselining |
| 3 | Transformer 아키텍처 | 이론 | 필수 | Chronos-2, TimesFM 2.5 |
| 4 | PromQL 심화 | 실무 | 필수 | Dynamic Baselining 실습 |
| 5 | Stream Processing (Flink) | 실무 | 필수 | 실시간 Event Correlation |
| 6 | OTel Collector Processors | 실무 | 필수 | Noise Reduction 구현 |
| 7 | Conformal Prediction | 이론 | 필수 ↑ | FFM 예측 구간 보정 |
| 8 | Quantile Regression | 이론 | 권장 | FFM 간접 탐지 수학 |
| 9 | Change Point Detection | 이론 | 권장 | Concept Drift Abrupt |
| 10 | 정보 이론 (KL Divergence) | 이론 | 권장 | CrossAD Loss, VAE TSAD |
| 11 | MLOps Shadow Mode | 실무 | 권장 | Phase 2 로드맵 |
| 12 | GPU Serving (Triton) | 실무 | 권장 | FFM 배치 + 캐싱 |
| 13 | TSDB 선택 | 실무 | 권장 | 16K 컨텍스트 히스토리 |
| 14 | Causal Discovery | 트렌드 | 권장 | CMDB 없는 RCA |
| 15 | Online / Continual Learning | 트렌드 | 권장 | Concept Drift 자동 적응 |
| 16 | Agentic AIOps | 트렌드 | 필수 ↑ | 자율 인시던트 대응 |
| 17 | Self-Supervised Learning | 트렌드 | 권장 | CrossAD, 레이블 부족 |
| 18 | RAG for Incidents | 트렌드 | 필수 ↑ | Semantic Correlation 확장 |
| 19 | Graph Neural Networks | 이론 | 심화 | Topological Correlation |
| 20 | Spectral & Wavelet | 이론 | 심화 | Cross-scale Associations |
| 21 | TS Tokenization | 트렌드 | 심화 | Chronos-2 아키텍처 |
| 22 | XAI for AD | 트렌드 | 심화 | FFM black-box 보완 |
| 23 | MCP for AIOps | 실무 | 필수 (신규) | Agentic AIOps 도구 통합 |