Week 3-1 : 같이 알면 좋은 개념

bocopile·2026년 4월 18일

AIOps

목록 보기

4/10

https://velog.io/@gjrjr4545/AIops-2-1
해당 문서의 주제를 더 깊이 이해하기 위해 함께 공부하면 좋은 연관 개념들입니다.
또한 해당 문서는 AI의 도움을 받아 문서작성을 진행하였습니다.

학습 순서 가이드

필수 (Must-Know) — 이론 기초

1. 확률 분포와 가설 검정 (Probability Distributions & Hypothesis Testing)

z-score 이상 탐지는 “관측값이 정상 분포에서 나왔을 확률”을 검정하는 구조입니다. p-value와 유의수준 개념 없이는 임계치 선정을 이론적으로 정당화할 수 없습니다. 본문 2.3절의 z-score, STL Residual의 수학적 배경입니다.

연결 포인트	z-score 임계치, STL Residual 정규성 가정
리소스	StatQuest — Hypothesis Testing

2. 시계열 정상성·자기상관·계절성 분해 (Stationarity, ACF/PACF, STL)

ADF 검정으로 정상성을 확인하고, ACF/PACF로 자기상관 구조를 파악하며, STL로 Trend + Seasonal + Residual을 분리하는 것은 ARIMA·SARIMA·Dynamic Baselining의 공통 전처리 단계입니다. 본문 2.4절의 STL 설명을 수학적으로 이해하기 위한 필수 기초입니다.

연결 포인트	Dynamic Baselining, SARIMA, Datadog Agile
리소스	Forecasting: Principles and Practice 3e (무료)

3. Transformer 아키텍처 (Attention, Patch Embedding, Positional Encoding)

Chronos-2의 Group Attention과 TimesFM 2.5의 Decoder-Only Causal Self-Attention + RoPE는 NLP Transformer의 직접 응용입니다. 두 모델의 구조적 차이(인코더 전용 vs 디코더 전용)를 이해하려면 Attention 메커니즘이 필수입니다.

연결 포인트	Chronos-2 Group Attention, TimesFM 2.5 Causal Self-Attention
리소스	Illustrated Transformer (Jay Alammar) / iTransformer 논문

필수 (Must-Know) — 실무 도구

4. Prometheus PromQL 심화 — Recording Rules & 이상 탐지 패턴

absent(), rate() 함수의 함정(카운터 리셋, 슬롯 불일치)과 Recording Rule로 z-score 근사 및 분위수 기반 임계치를 사전 계산하는 방법. 본문의 정적 임계치 한계와 Dynamic Baselining을 직접 실습할 수 있는 핵심 기술입니다.

연결 포인트	Dynamic Baselining 실습, Missing Data 감지 (absent_over_time)
리소스	Prometheus Alerting Best Practices

5. Stream Processing (Apache Flink / Kafka Streams) — 실시간 Event Correlation

Flink의 EventTime Window, Watermark, CEP(Complex Event Processing) 라이브러리로 본문 3절의 “5분 창 내 동일 출처 이벤트 그룹핑”을 실시간 스트리밍으로 구현합니다. 초당 수천 건 이벤트 처리 시 필수입니다.

연결 포인트	Temporal Correlation, Noise Reduction 파이프라인
리소스	Apache Flink CEP 공식 문서

6. OTel Collector Processors — Deduplication & Enrichment 파이프라인

OpenTelemetry Collector의 filter, transform, groupbyattrs 프로세서를 조합해 본문 4절의 Noise Reduction 파이프라인(필터링 → Dedup → Enrichment)을 코드로 구현합니다. 배포 이벤트를 메트릭에 Covariate로 부착하는 실무 패턴도 포함됩니다.

연결 포인트	Noise Reduction 파이프라인, Covariate 전처리
리소스	OTel Collector Processors 공식 문서

권장 (Nice-to-Know) — 심화 이론

7. Conformal Prediction — 분포 무가정 예측 구간 ★2026 필수 격상

FFM이 생성하는 예측 구간의 신뢰도는 학습 데이터 분포에 의존합니다. Conformal Prediction은 분포 가정 없이 통계적으로 보증된 Coverage(예: 90% 구간에 실제값이 90% 확률로 포함)를 보장합니다. 어떤 FFM 위에도 씌울 수 있는 통계적 보정 레이어로, 실무에서 False Alarm Rate를 직접 제어할 수 있게 합니다.

2026년 위상: CPTC(NeurIPS 2025)가 비정상 시계열에서의 CP를 해결했고,
ICLR 2026에서 "Adaptive Conformal Anomaly Detection with FFM" 논문이 채택되면서
FFM 예측 구간 보정의 산업 표준으로 자리 잡고 있습니다.

연결 포인트	FFM 간접 탐지 경로(13절)의 예측 구간 신뢰도 보증
리소스	A Gentle Introduction to Conformal Prediction / CPTC (NeurIPS 2025) / CP: A Data Perspective (ACM CSUR 2025)

8. Quantile Regression & Prediction Intervals — 분위수 회귀

Chronos-2(21개 분위수)와 TimesFM 2.5의 Quantile Head는 모두 분위수 회귀 기반 확률 예측입니다. MSE가 아닌 Pinball Loss(분위수 손실)를 최소화하여 조건부 분포를 추정하는 원리를 이해해야 “예측 구간 밖 = 이상”을 수식 수준에서 파악할 수 있습니다.

연결 포인트	FFM 간접 탐지 경로(13절)의 수학적 배경
리소스	scikit-learn Quantile Regression 튜토리얼

9. Change Point Detection vs Anomaly Detection

Anomaly Detection이 “점·구간의 이상”을 탐지한다면, Change Point Detection은 “통계적 성질이 구조적으로 바뀐 시점”을 찾습니다. Concept Drift의 Abrupt 유형이 바로 Change Point이며, 배포 이벤트 전후 모델 재학습 기준을 자동화하려면 PELT·BOCPD 알고리즘이 필요합니다.

교차검증: 2개 이상 에이전트가 독립적으로 추천한 핵심 주제

연결 포인트	Concept Drift Abrupt 유형(6.1절), 재학습 트리거 자동화
리소스	ruptures 라이브러리 / BOCPD 원 논문

10. 정보 이론 — Entropy, KL Divergence

KL Divergence는 “현재 분포가 정상 분포에서 얼마나 멀어졌는가”를 정량화합니다. VAE 기반 TSAD와 CrossAD의 손실 함수에 KL 항이 등장하며, Anomaly Score를 분포 간 거리로 해석하는 데 핵심입니다.

연결 포인트	CrossAD Contrastive Loss, VAE 기반 TSAD
리소스	Visual Information Theory (Chris Olah)

권장 (Nice-to-Know) — 실무 심화

11. MLOps Shadow Mode & A/B Testing

본문 16절 Phase 2의 “Shadow mode(FFM 결과 로그만 기록, 실제 경보는 기존 방식)”를 실제로 구현하는 MLOps 패턴입니다. 모델 레지스트리(MLflow), Champion/Challenger 비교, Concept Drift 감지 지표(PSI, KS test) 설정법을 다룹니다.

연결 포인트	Phase 2 로드맵, Concept Drift 대응
리소스	MLflow Model Registry / Evidently AI

12. GPU Serving Infrastructure (Triton / TensorRT)

Chronos-2, TimesFM 2.5를 프로덕션에서 서빙할 때의 지연시간·비용 최적화. 본문 13.4절의 “배치 예측 + 캐싱” 아키텍처를 구현하려면 NVIDIA Triton의 Dynamic Batching, TensorRT FP16/INT8 quantization이 필수입니다.

연결 포인트	FFM 배치 예측 + 캐싱 아키텍처(13.4절)
리소스	NVIDIA Triton Inference Server

13. TSDB 선택 — VictoriaMetrics vs InfluxDB v3 vs TimescaleDB

이상 탐지 파이프라인의 데이터 레이어. VictoriaMetrics의 높은 압축률, InfluxDB v3의 Columnar 저장(FFM 배치 입력에 유리), TimescaleDB의 Continuous Aggregate(z-score 사전 계산)를 비교합니다. TimesFM 2.5의 16K 컨텍스트 활용 시 히스토리 조회 성능과 직결됩니다.

연결 포인트	FFM 16K 컨텍스트 히스토리 조회, 배치 캐시 저장소
리소스	VictoriaMetrics vs InfluxDB 비교 / TimescaleDB Continuous Aggregates

권장 (Nice-to-Know) — 최신 트렌드

14. Causal Discovery in Time Series — 상관관계를 넘어 인과관계로

본문 3절의 Topological Correlation은 “CMDB가 부정확하면 엉뚱한 Root Cause가 나온다”는 한계가 있습니다. Causal Discovery는 CMDB 없이도 데이터에서 인과 그래프를 자동 추출합니다. ICLR 2025 Oral 논문 AERCA는 Granger Causal Discovery와 RCA를 통합했습니다.

교차검증: 2개 이상 에이전트가 독립적으로 추천한 핵심 주제

연결 포인트	Topological Correlation 한계(3.2절), CMDB Stale 문제
리소스	AERCA (ICLR 2025) / RealTCD (arXiv:2404.14786)

15. Online / Continual Learning for Concept Drift

모델을 완전히 재학습하지 않고, 데이터 스트림에서 분포 변화를 감지해 점진적으로 적응하는 학습 방법. 본문 6.4절의 “수동 재학습 비용” 문제의 직접적 해결책입니다. METER(VLDB 2024)는 SCD(Static Concept Detector)와 DSD(Dynamic Shift Detector), IEC(Instance-aware Evidential Clustering)를 통합하여 Concept Drift에 점진적으로 적응합니다.

교차검증: 2개 이상 에이전트가 독립적으로 추천한 핵심 주제

연결 포인트	Concept Drift(6.1절), 수동 재학습 비용(6.4절)
리소스	METER (arXiv:2312.16831) / GitHub: zjiaqi725/METER

16. Agentic AIOps — LLM 에이전트 기반 자율 인시던트 대응 ★2026 필수 격상

LLM 에이전트가 이상 탐지 → RCA → Runbook 실행 → 복구까지 자율 수행하는 패러다임입니다.
본문에서 학습한 전통 AIOps + FFM 탐지는 “알림을 만드는” 레이어이고, Agentic AIOps는 알림을 받아 스스로 행동까지 완료하는 다음 단계입니다.

2026년 위상: 단순 트렌드가 아닌 AIOps의 핵심 패러다임 전환입니다.

Dynatrace Intelligence (2025.02) — Deterministic AI + Agentic AI 결합, MTTR 3배 단축

PagerDuty SRE Agent (2025 H2 GA) — MCP 기반 멀티에이전트 협업

AWS DevOps Agent — CloudWatch → 자동 진단 → 복구 (4분 이내)

OpenRCA (Microsoft, ICLR 2025) — 335개 실제 장애 벤치마크, 최고 모델도 11.34% 해결률 → 아직 초기

OWASP Agentic AI Top 10 (2025.12) — 에이전트 특유의 보안 위협 정의

연결 포인트	Event Correlation → RCA → Remediation 자동화, MCP 도구 통합
리소스	AIOpsLab (MLSys 2025) / OpenRCA (ICLR 2025) / AWS DevOps Agent

17. Self-Supervised Learning for Time Series

레이블 없이 시계열 표현(representation)을 학습하는 방법. Contrastive Learning과 Masked Autoencoder 두 흐름. TSAD 핵심 난제인 “레이블 부족(0.1~1%)” 문제의 직접 해결이며, CrossAD의 Domain-Invariant Feature Extraction의 기반입니다.

교차검증: 2개 이상 에이전트가 독립적으로 추천한 핵심 주제

연결 포인트	CrossAD(9절), TSAD 레이블 부족 문제(8.2절)
리소스	arXiv:2403.09809 / GitHub: qingsongedu/Awesome-SSL4TS

18. RAG for Incident Management ★2026 필수 격상

과거 인시던트 티켓, Runbook, Post-mortem을 LLM이 실시간 검색해 컨텍스트로 활용하는 기술. 본문 3.3절의 Semantic Correlation을 실무에 확장한 것으로, “3개월 전에도 같은 알림이 있었나? 어떻게 해결했나?”를 자동으로 찾아 MTTR을 줄입니다.

2026년 위상: ServiceNow Now Assist for ITOM, Dynatrace 등 주요 상용 플랫폼에서 표준 기능으로 채택되었습니다.

연결 포인트	Semantic Correlation(3.3절), 포스트모텀 지식 활용
리소스	RAG-Based Incident Resolution (arXiv:2409.13707)

심화 (Advanced)

19. Graph Neural Networks — Topology-Aware Correlation

본문 3.2절의 Topological Correlation은 의존성 그래프를 수동 조회하지만, GNN(Graph Attention Network, GraphSAGE)을 사용하면 동적으로 변하는 서비스 메쉬 토폴로지에서 Root Cause Propagation을 자동 학습할 수 있습니다.

연결 포인트	Topological Correlation 자동화(3.2절)
리소스	Stanford CS224W (무료)

20. Spectral Analysis & Wavelet Transform

FFT로 주기성 성분을 주파수 도메인에서 확인하고, Wavelet Transform으로 시간-주파수 동시 분석을 수행하면 STL로 잡지 못하는 비정상 주기 패턴과 CrossAD의 Cross-scale Associations 원리를 이해할 수 있습니다.

연결 포인트	CrossAD Cross-scale(9절), STL의 한계 보완
리소스	PyWavelets 공식 문서

21. Time Series Tokenization Strategies

Chronos의 “시계열을 토큰화”하는 아이디어를 넘어, Wavelet 기반 토크나이저(WaveToken, ICML 2025), 이산 토큰화(TOTEM) 등 다양한 전략이 경쟁 중. Tokenization 전략이 FFM 성능의 병목임을 이해하면 모델 구조를 더 깊이 파악할 수 있습니다.

연결 포인트	Chronos-2 아키텍처(11.2절) 심화
리소스	WaveToken (ICML 2025, arXiv:2412.05244) / TOTEM (ICLR 2024, TMLR 2024)

22. XAI for Anomaly Detection — 왜 이상인지 설명하기

본문 15.1절에서 Foundation Model의 “설명 가능성 낮음(black-box)”이 약점으로 명시됩니다. SHAP, Attention weight 시각화, LLM 자연어 설명 등으로 이 약점을 보완해 운영자가 FFM의 이상 판정을 신뢰하고 행동할 수 있게 합니다.

연결 포인트	FFM의 설명 가능성 한계(15.1절), Alert Fatigue 감소
리소스	Survey on Explainable Anomaly Detection (arXiv:2210.06959)

23. MCP(Model Context Protocol) for AIOps — 에이전트 도구 통합 표준 ★2026 신규

LLM 에이전트가 Prometheus, Grafana, CMDB, 티켓 시스템 등을 표준화된 방식으로 호출하기 위한 프로토콜입니다.
2026년 월간 SDK 다운로드 9,700만+ 회로, Agentic AIOps 구현의 핵심 인프라입니다.
Azure SRE Agent, New Relic AI MCP Server 등이 이미 프로덕션에서 활용 중입니다.

연결 포인트	Agentic AIOps(#16), Covariate 전달 표준화, OTel 연동
리소스	MCP 공식 사이트 / Azure SRE Agent MCP

전체 요약표

#	주제	축	우선순위	Week 2 연결
1	확률 분포 & 가설 검정	이론	필수	z-score, STL Residual
2	시계열 정상성·ACF·STL	이론	필수	Dynamic Baselining
3	Transformer 아키텍처	이론	필수	Chronos-2, TimesFM 2.5
4	PromQL 심화	실무	필수	Dynamic Baselining 실습
5	Stream Processing (Flink)	실무	필수	실시간 Event Correlation
6	OTel Collector Processors	실무	필수	Noise Reduction 구현
7	Conformal Prediction	이론	필수 ↑	FFM 예측 구간 보정
8	Quantile Regression	이론	권장	FFM 간접 탐지 수학
9	Change Point Detection	이론	권장	Concept Drift Abrupt
10	정보 이론 (KL Divergence)	이론	권장	CrossAD Loss, VAE TSAD
11	MLOps Shadow Mode	실무	권장	Phase 2 로드맵
12	GPU Serving (Triton)	실무	권장	FFM 배치 + 캐싱
13	TSDB 선택	실무	권장	16K 컨텍스트 히스토리
14	Causal Discovery	트렌드	권장	CMDB 없는 RCA
15	Online / Continual Learning	트렌드	권장	Concept Drift 자동 적응
16	Agentic AIOps	트렌드	필수 ↑	자율 인시던트 대응
17	Self-Supervised Learning	트렌드	권장	CrossAD, 레이블 부족
18	RAG for Incidents	트렌드	필수 ↑	Semantic Correlation 확장
19	Graph Neural Networks	이론	심화	Topological Correlation
20	Spectral & Wavelet	이론	심화	Cross-scale Associations
21	TS Tokenization	트렌드	심화	Chronos-2 아키텍처
22	XAI for AD	트렌드	심화	FFM black-box 보완
23	MCP for AIOps	실무	필수 (신규)	Agentic AIOps 도구 통합

bocopile

DevOps Engineer

이전 포스트

Week 3: 전통적 AIOps의 기본기와 Forecasting Foundation Model의 등장

다음 포스트

Week 3-1 : 같이 알면 좋은 개념

AIOps

학습 순서 가이드

필수 (Must-Know) — 이론 기초

1. 확률 분포와 가설 검정 (Probability Distributions & Hypothesis Testing)

2. 시계열 정상성·자기상관·계절성 분해 (Stationarity, ACF/PACF, STL)

3. Transformer 아키텍처 (Attention, Patch Embedding, Positional Encoding)

필수 (Must-Know) — 실무 도구

4. Prometheus PromQL 심화 — Recording Rules & 이상 탐지 패턴

5. Stream Processing (Apache Flink / Kafka Streams) — 실시간 Event Correlation

6. OTel Collector Processors — Deduplication & Enrichment 파이프라인

권장 (Nice-to-Know) — 심화 이론

7. Conformal Prediction — 분포 무가정 예측 구간 ★2026 필수 격상

8. Quantile Regression & Prediction Intervals — 분위수 회귀

9. Change Point Detection vs Anomaly Detection

10. 정보 이론 — Entropy, KL Divergence

권장 (Nice-to-Know) — 실무 심화

11. MLOps Shadow Mode & A/B Testing

12. GPU Serving Infrastructure (Triton / TensorRT)

13. TSDB 선택 — VictoriaMetrics vs InfluxDB v3 vs TimescaleDB

권장 (Nice-to-Know) — 최신 트렌드

14. Causal Discovery in Time Series — 상관관계를 넘어 인과관계로

15. Online / Continual Learning for Concept Drift

16. Agentic AIOps — LLM 에이전트 기반 자율 인시던트 대응 ★2026 필수 격상

17. Self-Supervised Learning for Time Series

18. RAG for Incident Management ★2026 필수 격상

심화 (Advanced)

19. Graph Neural Networks — Topology-Aware Correlation

20. Spectral Analysis & Wavelet Transform

21. Time Series Tokenization Strategies

22. XAI for Anomaly Detection — 왜 이상인지 설명하기

23. MCP(Model Context Protocol) for AIOps — 에이전트 도구 통합 표준 ★2026 신규

전체 요약표

Week 3: 전통적 AIOps의 기본기와 Forecasting Foundation Model의 등장

Week 4 — Correlation: 흩어진 신호를 하나의 사건으로 묶기

0개의 댓글