Datadog Summit Seoul - hands on

바나나·2025년 10월 24일

외부 세션

목록 보기
1/1

Datadog Learn SRE 핸즈온 후기 & SLO 핵심 정리

관련 링크: Datadog Summit Seoul 후기(velog)


핸즈온 내용

Datadog Learn(무료) 코스에서 SLI를 정의하고 SLO를 설정한 뒤, SLO 위반 시 알림 전파와 담당자 자동 할당까지 구성했다.

  • SLI 정의

    • APM 기반: HTTP 상태코드(2xx/5xx)를 기준으로 요청 성공률/오류율 측정
    • RUM 기반: 실제 사용자 모니터링(RUM)의 페이지/리소스 지연시간(latency) 측정
  • SLO 구성: 위 SLI들을 대상으로 기간(예: 28일 롤링), 목표 비율(예: 성공률 99.9%), 대상(엔드포인트/서비스)를 명확히 설정

  • 알림/할당: SLO 위반 시 Datadog monitor 으로 알림을 보내고, 담당자에게 할당까지 할 수 있도록한다.

내가 느낀 점

  • Log/APM을 통해 Slack 알림까지 보내는 부분은 실무에서 많이 사용해 봤지만, SLI/SLO로 기준을 두고 운영해 본 것은 처음이라 좋은 경험이었다.
  • 이번 구성은 특정 지표에 임계값을 두고 도달 시 알림을 보내는 형태였기 때문에, 기존 에러 알림은 병행해야 한다고 느꼈다.
  • 특히 이벤트·연휴처럼 트래픽 변동이 큰 시기에 이런 체계를 갖춰 두면 더 빠르게 대응할 수 있을 것 같다.

아래부터는 핸즈온 중 다룬 이론 정리입니다.


이론 정리

왜 SRE 관점이 필요한가

  • Ops 팀 확장성 문제: 서비스 규모·복잡도가 커질수록 운영 인력을 선형적으로 늘리는 방식은 한계가 있음.

  • 해결 우선순위

    1. 자동화: 반복 작업, 배포 검증, 롤백, 런북/자가치유(auto-remediation)
    2. 가시성 확보: 메트릭·로그·트레이스 상관분석으로 원인→영향을 빠르게 좁힘

SLI (Service Level Indicator)

  • 정의: 사용자가 체감하는 품질을 분자/분모가 명확한 수식으로 정의한 지표.

  • 예시

    • 지연시간(latency): p95/p99 응답시간
    • 오류율(error rate): 5xx 수 / 전체 요청 수
    • 성공률(success rate): 2xx 수 / 전체 요청 수
    • 비즈니스 품질: 결제 성공 / 결제 시도 등

SLO (Service Level Objective)

  • 정의: 특정 기간 동안 SLI가 만족해야 하는 목표.

  • 좋은 문장 예시

    • "지난 28일 롤링 윈도우 기준, 성공률 99.9% 이상"
    • "p95 응답시간 100ms 이하 요청이 28일 동안 99% 이상"

기간·대상·퍼센트가 빠지면 SLO로 불완전하다.

에러 버짓(Error Budget)

  • 정의: (1 − SLO)만큼 허용되는 실패 여유. 예) SLO 99.9% → 0.1%가 버짓.
  • 연간 허용 중단시간(감 잡기)
가용성연간 허용 중단시간
99.0%3일 15시간 36분
99.5%1일 19시간 48분
99.9%8시간 45분 36초
99.95%4시간 22분 48초
99.99%52분 34초
99.999%5분 15초
  • 운영 정책 예시: 버짓 소진 시 배포 일시 중단, 회고/개선 액션, 위험 실험 제한

임계값보다 버짓 소모율(Burn Rate) 기반 알림

  • 공식: Burn rate = (현재 오류율) / (1 − SLO)

  • 운영 팁: 다중 윈도우로 빠른/느린 소모를 함께 감지

    • 예: 1시간/6시간 두 창에서 기준 초과 시 알림
    • 단발성 스파이크와 장기 악화를 모두 포착하고 알림 피로도를 낮춤

골든 시그널(Golden Signals)

  • Latency(지연시간): p95/p99, 타임아웃 비율
  • Errors(오류): 5xx·애플리케이션 예외, 비즈니스 실패율
  • Traffic(트래픽): RPS/QPS, 동시 사용자, 메시지 처리량
  • Saturation(포화도): CPU·메모리·스레드풀·큐 길이·DB 커넥션 등 리소스 여유

실무 적용 체크리스트

  • SLI 정의: 사용자 여정별로 분자/분모를 문장화하고 대시보드 메트릭과 1:1 매핑
  • SLO 문장화: 기간·대상·퍼센트를 명시(엔드포인트/서비스/리전 단위)
  • 알림 설계: 버짓 소모율 기반 다중 윈도우, 온콜 할당

마무리

이번 핸즈온은 기존의 단순 에러 알림을 넘어, 사용자 체감 품질을 수치로 정의(SLI) → 기간 목표(SLO) → 버짓 기반 운영으로 연결하는 SRE 운영의 뼈대를 체감하게 해 주었다. 이벤트·연휴 등 변동 구간에 특히 효과적이며, 팀의 확장 가능한 운영을 위한 기본기를 갖추는 데 큰 도움이 된다.

profile
Java/Kotlin Spring 개발자 황재명입니다.

0개의 댓글