Datadog Summit Seoul - hands on

바나나·2025년 10월 24일

2025 datadog datadog-summit-seoul-2025

외부 세션

목록 보기

1/1

Datadog Learn SRE 핸즈온 후기 & SLO 핵심 정리

관련 링크: Datadog Summit Seoul 후기(velog)

핸즈온 내용

Datadog Learn(무료) 코스에서 SLI를 정의하고 SLO를 설정한 뒤, SLO 위반 시 알림 전파와 담당자 자동 할당까지 구성했다.

SLI 정의
- APM 기반: HTTP 상태코드(2xx/5xx)를 기준으로 요청 성공률/오류율 측정
- RUM 기반: 실제 사용자 모니터링(RUM)의 페이지/리소스 지연시간(latency) 측정
SLO 구성: 위 SLI들을 대상으로 기간(예: 28일 롤링), 목표 비율(예: 성공률 99.9%), 대상(엔드포인트/서비스)를 명확히 설정
알림/할당: SLO 위반 시 Datadog monitor 으로 알림을 보내고, 담당자에게 할당까지 할 수 있도록한다.

내가 느낀 점

Log/APM을 통해 Slack 알림까지 보내는 부분은 실무에서 많이 사용해 봤지만, SLI/SLO로 기준을 두고 운영해 본 것은 처음이라 좋은 경험이었다.
이번 구성은 특정 지표에 임계값을 두고 도달 시 알림을 보내는 형태였기 때문에, 기존 에러 알림은 병행해야 한다고 느꼈다.
특히 이벤트·연휴처럼 트래픽 변동이 큰 시기에 이런 체계를 갖춰 두면 더 빠르게 대응할 수 있을 것 같다.

아래부터는 핸즈온 중 다룬 이론 정리입니다.

이론 정리

왜 SRE 관점이 필요한가

Ops 팀 확장성 문제: 서비스 규모·복잡도가 커질수록 운영 인력을 선형적으로 늘리는 방식은 한계가 있음.
해결 우선순위
1. 자동화: 반복 작업, 배포 검증, 롤백, 런북/자가치유(auto-remediation)
2. 가시성 확보: 메트릭·로그·트레이스 상관분석으로 원인→영향을 빠르게 좁힘

SLI (Service Level Indicator)

정의: 사용자가 체감하는 품질을 분자/분모가 명확한 수식으로 정의한 지표.
예시
- 지연시간(latency): p95/p99 응답시간
- 오류율(error rate): 5xx 수 / 전체 요청 수
- 성공률(success rate): 2xx 수 / 전체 요청 수
- 비즈니스 품질: 결제 성공 / 결제 시도 등

SLO (Service Level Objective)

정의: 특정 기간 동안 SLI가 만족해야 하는 목표.
좋은 문장 예시
- "지난 28일 롤링 윈도우 기준, 성공률 99.9% 이상"
- "p95 응답시간 100ms 이하 요청이 28일 동안 99% 이상"

기간·대상·퍼센트가 빠지면 SLO로 불완전하다.

에러 버짓(Error Budget)

정의: (1 − SLO)만큼 허용되는 실패 여유. 예) SLO 99.9% → 0.1%가 버짓.
연간 허용 중단시간(감 잡기)

가용성	연간 허용 중단시간
99.0%	3일 15시간 36분
99.5%	1일 19시간 48분
99.9%	8시간 45분 36초
99.95%	4시간 22분 48초
99.99%	52분 34초
99.999%	5분 15초

운영 정책 예시: 버짓 소진 시 배포 일시 중단, 회고/개선 액션, 위험 실험 제한

임계값보다 버짓 소모율(Burn Rate) 기반 알림

공식: Burn rate = (현재 오류율) / (1 − SLO)
운영 팁: 다중 윈도우로 빠른/느린 소모를 함께 감지
- 예: 1시간/6시간 두 창에서 기준 초과 시 알림
- 단발성 스파이크와 장기 악화를 모두 포착하고 알림 피로도를 낮춤

골든 시그널(Golden Signals)

Latency(지연시간): p95/p99, 타임아웃 비율
Errors(오류): 5xx·애플리케이션 예외, 비즈니스 실패율
Traffic(트래픽): RPS/QPS, 동시 사용자, 메시지 처리량
Saturation(포화도): CPU·메모리·스레드풀·큐 길이·DB 커넥션 등 리소스 여유

실무 적용 체크리스트

SLI 정의: 사용자 여정별로 분자/분모를 문장화하고 대시보드 메트릭과 1:1 매핑
SLO 문장화: 기간·대상·퍼센트를 명시(엔드포인트/서비스/리전 단위)
알림 설계: 버짓 소모율 기반 다중 윈도우, 온콜 할당

마무리

이번 핸즈온은 기존의 단순 에러 알림을 넘어, 사용자 체감 품질을 수치로 정의(SLI) → 기간 목표(SLO) → 버짓 기반 운영으로 연결하는 SRE 운영의 뼈대를 체감하게 해 주었다. 이벤트·연휴 등 변동 구간에 특히 효과적이며, 팀의 확장 가능한 운영을 위한 기본기를 갖추는 데 큰 도움이 된다.

바나나

Java/Kotlin Spring 개발자 황재명입니다.