AIOps 스터디 커리큘럼 — 주차별 요약

bocopile·2026년 4월 5일

AI-Agent

목록 보기
1/5

v3 기준 | 2026-04-05 | 8주 체계
각 주차의 주제, 목적, 핵심 키워드만 압축 정리
5주차 ~ 8주차 변동 가능성 존재

Phase 1 — AIOps 기반 개념 확립 (1~4주)

Week 1

  • 주제: AIOps 정의 + Observability / SRE / DevOps와의 관계 + Telemetry 이해
  • 목적: AIOps = observability 위의 운영 의사결정 보조 계층으로 정의. "AIOps = 이상 탐지" 오해 차단 + AIOps가 처리하는 telemetry 유형과 현실적 한계 파악
  • 핵심 키워드: AIOps 정의, 운영 의사결정 보조 계층, Observability, SRE, DevOps, SLO, Error Budget, OpenTelemetry, Logs, Metrics, Traces, Sampling, Cardinality, Data Quality, Clock Skew

Week 2

  • 주제: 전통적 AIOps — deduplication, baselining, anomaly detection + 시계열 Foundation Model 등장
  • 목적: 전통 anomaly detection의 가치와 한계 이해, Forecasting Foundation Model 등장 이후 탐지 방식 변화 파악
  • 핵심 키워드: TSAD, Baselining, Deduplication, TimeSeriesBench, CrossAD (NeurIPS 2025), Chronos-2 (Forecasting FM), TimesFM 2.5 (Forecasting FM)

Week 3

  • 주제: Correlation — 흩어진 신호를 하나의 사건으로 묶기
  • 목적: Alert noise 문제와 correlation의 역할 이해, topology 기반 연관의 필요성 파악
  • 핵심 키워드: Alert Noise, Event Correlation, Topology-aware Correlation, Service Dependency Graph, Service Map, Alert Grouping

Week 4

  • 주제: RCA 개념 기초 — 증상 vs 원인, graph 기반 접근
  • 목적: RCA가 anomaly detection보다 본질적으로 어려운 이유 이해, 전통 RCA 접근의 한계 파악
  • 핵심 키워드: Symptom vs Root Cause, Graph-based RCA, MicroRCA, RCAEval (9 datasets / 735 failure cases), Causal Discovery, AERCA (ICLR 2025)
  • 참고 시나리오: Kubernetes — 새 버전 배포 → DB connection pool 설정 오류 → API latency 급증. 증상(latency)과 원인(pool 설정 오류)을 분리하는 전형적 RCA 사례.

Phase 2 — AgentOps + OSS 생태계 현실 판단 (5~8주)

Week 5

  • 주제: AgentOps 개념 — AI agent를 운영한다는 것
  • 목적: AIOps agent 운영의 구조적 특성 이해. intra-agent / inter-agent 이상, 4단계 운영 사이클(monitoring → detection → RCA → resolution) 파악
  • 핵심 키워드: AgentOps Survey, Intra-agent Anomaly, Inter-agent Anomaly, Agent Monitoring, Agent RCA, Agent Resolution, AIOps vs AgentOps 관계

Week 6

  • 주제: OSS 도구 분석 — 각 repo의 역할과 위치
  • 목적: 현재 오픈소스 AIOps/AgentOps 도구의 역할 레이어 분류. 연구형 / 실무형 / 데모형 구분 능력 확보
  • 핵심 키워드: Coroot (observability+AI RCA), HolmesGPT (CNCF Sandbox, investigation agent), Kubeshark (network observability 인접 도구), Kubernaut (closed-loop AIOps 데모형), AIOpsLab (연구형 평가 프레임워크), OpenRCA (benchmark), RCAEval (benchmark), CNCF Landscape

Week 7

  • 주제: 실무 도입 판단 — 산업 데이터와 ROI
  • 목적: AI AIOps 도입 현황을 산업 데이터로 검증. 연구 논문이 약속하는 성능과 실제 현장 성과의 차이를 정량적으로 판단
  • 핵심 키워드: Atlassian 2025 State of AI Incident Management, SolarWinds 2025 State of ITSM, MTTR 단축 수치, ROI 판단 기준, AI 도입 성숙도, 연구 vs 현실 괴리

Week 8

  • 주제: 전체 개념 정리 + 발표 메시지 완성
  • 목적: 8주 학습을 자기 언어로 정리하고, AIOps 현재 상태를 설명할 수 있는 능력 확인
  • 핵심 키워드: Telemetry 분류, 운영 문제 유형, AIOps 기능 분류, 사람 개입 지점, 평가 지표, OSS 역할 분류, 발표 메시지

전체 흐름 한눈에 보기

주차핵심 질문
1AIOps는 Observability / SRE와 어떻게 다르고, 무엇을 데이터로 먹는가?
2전통 TSAD에서 Forecasting Foundation Model로 무엇이 바뀌는가?
3Alert noise를 줄이려면 correlation이 왜 필요한가?
4RCA가 anomaly detection보다 왜 어려운가?
5AI agent를 운영한다는 것은 기존 시스템 운영과 무엇이 다른가?
6각 OSS repo는 어떤 역할 레이어에 있고, 서로 어떻게 다른가?
7연구 논문이 약속하는 AIOps 성능과 현장 도입 성과의 차이는 무엇인가?
8AIOps의 현재를 자기 언어로 설명할 수 있는가?
profile
DevOps Engineer

0개의 댓글