Week 3-1 : 같이 알면 좋은 개념

bocopile·2026년 4월 18일

AI-Agent

목록 보기
4/5
post-thumbnail

https://velog.io/@gjrjr4545/AIops-2-1
해당 문서의 주제를 더 깊이 이해하기 위해 함께 공부하면 좋은 연관 개념들입니다.
또한 해당 문서는 AI의 도움을 받아 문서작성을 진행하였습니다.

학습 순서 가이드


필수 (Must-Know) — 이론 기초

1. 확률 분포와 가설 검정 (Probability Distributions & Hypothesis Testing)

z-score 이상 탐지는 “관측값이 정상 분포에서 나왔을 확률”을 검정하는 구조입니다. p-value와 유의수준 개념 없이는 임계치 선정을 이론적으로 정당화할 수 없습니다. 본문 2.3절의 z-score, STL Residual의 수학적 배경입니다.

연결 포인트z-score 임계치, STL Residual 정규성 가정
리소스StatQuest — Hypothesis Testing

2. 시계열 정상성·자기상관·계절성 분해 (Stationarity, ACF/PACF, STL)

ADF 검정으로 정상성을 확인하고, ACF/PACF로 자기상관 구조를 파악하며, STL로 Trend + Seasonal + Residual을 분리하는 것은 ARIMA·SARIMA·Dynamic Baselining의 공통 전처리 단계입니다. 본문 2.4절의 STL 설명을 수학적으로 이해하기 위한 필수 기초입니다.

연결 포인트Dynamic Baselining, SARIMA, Datadog Agile
리소스Forecasting: Principles and Practice 3e (무료)

3. Transformer 아키텍처 (Attention, Patch Embedding, Positional Encoding)

Chronos-2의 Group Attention과 TimesFM 2.5의 Decoder-Only Causal Self-Attention + RoPE는 NLP Transformer의 직접 응용입니다. 두 모델의 구조적 차이(인코더 전용 vs 디코더 전용)를 이해하려면 Attention 메커니즘이 필수입니다.

연결 포인트Chronos-2 Group Attention, TimesFM 2.5 Causal Self-Attention
리소스Illustrated Transformer (Jay Alammar) / iTransformer 논문

필수 (Must-Know) — 실무 도구

4. Prometheus PromQL 심화 — Recording Rules & 이상 탐지 패턴

absent(), rate() 함수의 함정(카운터 리셋, 슬롯 불일치)과 Recording Rule로 z-score 근사 및 분위수 기반 임계치를 사전 계산하는 방법. 본문의 정적 임계치 한계와 Dynamic Baselining을 직접 실습할 수 있는 핵심 기술입니다.

연결 포인트Dynamic Baselining 실습, Missing Data 감지 (absent_over_time)
리소스Prometheus Alerting Best Practices

Flink의 EventTime Window, Watermark, CEP(Complex Event Processing) 라이브러리로 본문 3절의 “5분 창 내 동일 출처 이벤트 그룹핑”을 실시간 스트리밍으로 구현합니다. 초당 수천 건 이벤트 처리 시 필수입니다.

연결 포인트Temporal Correlation, Noise Reduction 파이프라인
리소스Apache Flink CEP 공식 문서

6. OTel Collector Processors — Deduplication & Enrichment 파이프라인

OpenTelemetry Collector의 filter, transform, groupbyattrs 프로세서를 조합해 본문 4절의 Noise Reduction 파이프라인(필터링 → Dedup → Enrichment)을 코드로 구현합니다. 배포 이벤트를 메트릭에 Covariate로 부착하는 실무 패턴도 포함됩니다.

연결 포인트Noise Reduction 파이프라인, Covariate 전처리
리소스OTel Collector Processors 공식 문서

권장 (Nice-to-Know) — 심화 이론

7. Conformal Prediction — 분포 무가정 예측 구간 ★2026 필수 격상

FFM이 생성하는 예측 구간의 신뢰도는 학습 데이터 분포에 의존합니다. Conformal Prediction은 분포 가정 없이 통계적으로 보증된 Coverage(예: 90% 구간에 실제값이 90% 확률로 포함)를 보장합니다. 어떤 FFM 위에도 씌울 수 있는 통계적 보정 레이어로, 실무에서 False Alarm Rate를 직접 제어할 수 있게 합니다.

2026년 위상: CPTC(NeurIPS 2025)가 비정상 시계열에서의 CP를 해결했고,
ICLR 2026에서 "Adaptive Conformal Anomaly Detection with FFM" 논문이 채택되면서
FFM 예측 구간 보정의 산업 표준으로 자리 잡고 있습니다.

연결 포인트FFM 간접 탐지 경로(13절)의 예측 구간 신뢰도 보증
리소스A Gentle Introduction to Conformal Prediction / CPTC (NeurIPS 2025) / CP: A Data Perspective (ACM CSUR 2025)

8. Quantile Regression & Prediction Intervals — 분위수 회귀

Chronos-2(21개 분위수)와 TimesFM 2.5의 Quantile Head는 모두 분위수 회귀 기반 확률 예측입니다. MSE가 아닌 Pinball Loss(분위수 손실)를 최소화하여 조건부 분포를 추정하는 원리를 이해해야 “예측 구간 밖 = 이상”을 수식 수준에서 파악할 수 있습니다.

연결 포인트FFM 간접 탐지 경로(13절)의 수학적 배경
리소스scikit-learn Quantile Regression 튜토리얼

9. Change Point Detection vs Anomaly Detection

Anomaly Detection이 “점·구간의 이상”을 탐지한다면, Change Point Detection은 “통계적 성질이 구조적으로 바뀐 시점”을 찾습니다. Concept Drift의 Abrupt 유형이 바로 Change Point이며, 배포 이벤트 전후 모델 재학습 기준을 자동화하려면 PELT·BOCPD 알고리즘이 필요합니다.

교차검증: 2개 이상 에이전트가 독립적으로 추천한 핵심 주제

연결 포인트Concept Drift Abrupt 유형(6.1절), 재학습 트리거 자동화
리소스ruptures 라이브러리 / BOCPD 원 논문

10. 정보 이론 — Entropy, KL Divergence

KL Divergence는 “현재 분포가 정상 분포에서 얼마나 멀어졌는가”를 정량화합니다. VAE 기반 TSAD와 CrossAD의 손실 함수에 KL 항이 등장하며, Anomaly Score를 분포 간 거리로 해석하는 데 핵심입니다.

연결 포인트CrossAD Contrastive Loss, VAE 기반 TSAD
리소스Visual Information Theory (Chris Olah)

권장 (Nice-to-Know) — 실무 심화

11. MLOps Shadow Mode & A/B Testing

본문 16절 Phase 2의 “Shadow mode(FFM 결과 로그만 기록, 실제 경보는 기존 방식)”를 실제로 구현하는 MLOps 패턴입니다. 모델 레지스트리(MLflow), Champion/Challenger 비교, Concept Drift 감지 지표(PSI, KS test) 설정법을 다룹니다.

연결 포인트Phase 2 로드맵, Concept Drift 대응
리소스MLflow Model Registry / Evidently AI

12. GPU Serving Infrastructure (Triton / TensorRT)

Chronos-2, TimesFM 2.5를 프로덕션에서 서빙할 때의 지연시간·비용 최적화. 본문 13.4절의 “배치 예측 + 캐싱” 아키텍처를 구현하려면 NVIDIA Triton의 Dynamic Batching, TensorRT FP16/INT8 quantization이 필수입니다.

연결 포인트FFM 배치 예측 + 캐싱 아키텍처(13.4절)
리소스NVIDIA Triton Inference Server

13. TSDB 선택 — VictoriaMetrics vs InfluxDB v3 vs TimescaleDB

이상 탐지 파이프라인의 데이터 레이어. VictoriaMetrics의 높은 압축률, InfluxDB v3의 Columnar 저장(FFM 배치 입력에 유리), TimescaleDB의 Continuous Aggregate(z-score 사전 계산)를 비교합니다. TimesFM 2.5의 16K 컨텍스트 활용 시 히스토리 조회 성능과 직결됩니다.

연결 포인트FFM 16K 컨텍스트 히스토리 조회, 배치 캐시 저장소
리소스VictoriaMetrics vs InfluxDB 비교 / TimescaleDB Continuous Aggregates

권장 (Nice-to-Know) — 최신 트렌드

14. Causal Discovery in Time Series — 상관관계를 넘어 인과관계로

본문 3절의 Topological Correlation은 “CMDB가 부정확하면 엉뚱한 Root Cause가 나온다”는 한계가 있습니다. Causal Discovery는 CMDB 없이도 데이터에서 인과 그래프를 자동 추출합니다. ICLR 2025 Oral 논문 AERCA는 Granger Causal Discovery와 RCA를 통합했습니다.

교차검증: 2개 이상 에이전트가 독립적으로 추천한 핵심 주제

연결 포인트Topological Correlation 한계(3.2절), CMDB Stale 문제
리소스AERCA (ICLR 2025) / RealTCD (arXiv:2404.14786)

15. Online / Continual Learning for Concept Drift

모델을 완전히 재학습하지 않고, 데이터 스트림에서 분포 변화를 감지해 점진적으로 적응하는 학습 방법. 본문 6.4절의 “수동 재학습 비용” 문제의 직접적 해결책입니다. METER(VLDB 2024)는 SCD(Static Concept Detector)와 DSD(Dynamic Shift Detector), IEC(Instance-aware Evidential Clustering)를 통합하여 Concept Drift에 점진적으로 적응합니다.

교차검증: 2개 이상 에이전트가 독립적으로 추천한 핵심 주제

연결 포인트Concept Drift(6.1절), 수동 재학습 비용(6.4절)
리소스METER (arXiv:2312.16831) / GitHub: zjiaqi725/METER

16. Agentic AIOps — LLM 에이전트 기반 자율 인시던트 대응 ★2026 필수 격상

LLM 에이전트가 이상 탐지 → RCA → Runbook 실행 → 복구까지 자율 수행하는 패러다임입니다.
본문에서 학습한 전통 AIOps + FFM 탐지는 “알림을 만드는” 레이어이고, Agentic AIOps는 알림을 받아 스스로 행동까지 완료하는 다음 단계입니다.

2026년 위상: 단순 트렌드가 아닌 AIOps의 핵심 패러다임 전환입니다.

  • Dynatrace Intelligence (2025.02) — Deterministic AI + Agentic AI 결합, MTTR 3배 단축
  • PagerDuty SRE Agent (2025 H2 GA) — MCP 기반 멀티에이전트 협업
  • AWS DevOps Agent — CloudWatch → 자동 진단 → 복구 (4분 이내)
  • OpenRCA (Microsoft, ICLR 2025) — 335개 실제 장애 벤치마크, 최고 모델도 11.34% 해결률 → 아직 초기
  • OWASP Agentic AI Top 10 (2025.12) — 에이전트 특유의 보안 위협 정의
연결 포인트Event Correlation → RCA → Remediation 자동화, MCP 도구 통합
리소스AIOpsLab (MLSys 2025) / OpenRCA (ICLR 2025) / AWS DevOps Agent

17. Self-Supervised Learning for Time Series

레이블 없이 시계열 표현(representation)을 학습하는 방법. Contrastive Learning과 Masked Autoencoder 두 흐름. TSAD 핵심 난제인 “레이블 부족(0.1~1%)” 문제의 직접 해결이며, CrossAD의 Domain-Invariant Feature Extraction의 기반입니다.

교차검증: 2개 이상 에이전트가 독립적으로 추천한 핵심 주제

연결 포인트CrossAD(9절), TSAD 레이블 부족 문제(8.2절)
리소스arXiv:2403.09809 / GitHub: qingsongedu/Awesome-SSL4TS

18. RAG for Incident Management ★2026 필수 격상

과거 인시던트 티켓, Runbook, Post-mortem을 LLM이 실시간 검색해 컨텍스트로 활용하는 기술. 본문 3.3절의 Semantic Correlation을 실무에 확장한 것으로, “3개월 전에도 같은 알림이 있었나? 어떻게 해결했나?”를 자동으로 찾아 MTTR을 줄입니다.

2026년 위상: ServiceNow Now Assist for ITOM, Dynatrace 등 주요 상용 플랫폼에서 표준 기능으로 채택되었습니다.

연결 포인트Semantic Correlation(3.3절), 포스트모텀 지식 활용
리소스RAG-Based Incident Resolution (arXiv:2409.13707)

심화 (Advanced)

19. Graph Neural Networks — Topology-Aware Correlation

본문 3.2절의 Topological Correlation은 의존성 그래프를 수동 조회하지만, GNN(Graph Attention Network, GraphSAGE)을 사용하면 동적으로 변하는 서비스 메쉬 토폴로지에서 Root Cause Propagation을 자동 학습할 수 있습니다.

연결 포인트Topological Correlation 자동화(3.2절)
리소스Stanford CS224W (무료)

20. Spectral Analysis & Wavelet Transform

FFT로 주기성 성분을 주파수 도메인에서 확인하고, Wavelet Transform으로 시간-주파수 동시 분석을 수행하면 STL로 잡지 못하는 비정상 주기 패턴과 CrossAD의 Cross-scale Associations 원리를 이해할 수 있습니다.

연결 포인트CrossAD Cross-scale(9절), STL의 한계 보완
리소스PyWavelets 공식 문서

21. Time Series Tokenization Strategies

Chronos의 “시계열을 토큰화”하는 아이디어를 넘어, Wavelet 기반 토크나이저(WaveToken, ICML 2025), 이산 토큰화(TOTEM) 등 다양한 전략이 경쟁 중. Tokenization 전략이 FFM 성능의 병목임을 이해하면 모델 구조를 더 깊이 파악할 수 있습니다.

연결 포인트Chronos-2 아키텍처(11.2절) 심화
리소스WaveToken (ICML 2025, arXiv:2412.05244) / TOTEM (ICLR 2024, TMLR 2024)

22. XAI for Anomaly Detection — 왜 이상인지 설명하기

본문 15.1절에서 Foundation Model의 “설명 가능성 낮음(black-box)”이 약점으로 명시됩니다. SHAP, Attention weight 시각화, LLM 자연어 설명 등으로 이 약점을 보완해 운영자가 FFM의 이상 판정을 신뢰하고 행동할 수 있게 합니다.

연결 포인트FFM의 설명 가능성 한계(15.1절), Alert Fatigue 감소
리소스Survey on Explainable Anomaly Detection (arXiv:2210.06959)

23. MCP(Model Context Protocol) for AIOps — 에이전트 도구 통합 표준 ★2026 신규

LLM 에이전트가 Prometheus, Grafana, CMDB, 티켓 시스템 등을 표준화된 방식으로 호출하기 위한 프로토콜입니다.
2026년 월간 SDK 다운로드 9,700만+ 회로, Agentic AIOps 구현의 핵심 인프라입니다.
Azure SRE Agent, New Relic AI MCP Server 등이 이미 프로덕션에서 활용 중입니다.

연결 포인트Agentic AIOps(#16), Covariate 전달 표준화, OTel 연동
리소스MCP 공식 사이트 / Azure SRE Agent MCP

전체 요약표

#주제우선순위Week 2 연결
1확률 분포 & 가설 검정이론필수z-score, STL Residual
2시계열 정상성·ACF·STL이론필수Dynamic Baselining
3Transformer 아키텍처이론필수Chronos-2, TimesFM 2.5
4PromQL 심화실무필수Dynamic Baselining 실습
5Stream Processing (Flink)실무필수실시간 Event Correlation
6OTel Collector Processors실무필수Noise Reduction 구현
7Conformal Prediction이론필수 ↑FFM 예측 구간 보정
8Quantile Regression이론권장FFM 간접 탐지 수학
9Change Point Detection이론권장Concept Drift Abrupt
10정보 이론 (KL Divergence)이론권장CrossAD Loss, VAE TSAD
11MLOps Shadow Mode실무권장Phase 2 로드맵
12GPU Serving (Triton)실무권장FFM 배치 + 캐싱
13TSDB 선택실무권장16K 컨텍스트 히스토리
14Causal Discovery트렌드권장CMDB 없는 RCA
15Online / Continual Learning트렌드권장Concept Drift 자동 적응
16Agentic AIOps트렌드필수 ↑자율 인시던트 대응
17Self-Supervised Learning트렌드권장CrossAD, 레이블 부족
18RAG for Incidents트렌드필수 ↑Semantic Correlation 확장
19Graph Neural Networks이론심화Topological Correlation
20Spectral & Wavelet이론심화Cross-scale Associations
21TS Tokenization트렌드심화Chronos-2 아키텍처
22XAI for AD트렌드심화FFM black-box 보완
23MCP for AIOps실무필수 (신규)Agentic AIOps 도구 통합
profile
DevOps Engineer

0개의 댓글