Datadog Learn(무료) 코스에서 SLI를 정의하고 SLO를 설정한 뒤, SLO 위반 시 알림 전파와 담당자 자동 할당까지 구성했다.
SLI 정의
SLO 구성: 위 SLI들을 대상으로 기간(예: 28일 롤링), 목표 비율(예: 성공률 99.9%), 대상(엔드포인트/서비스)를 명확히 설정
알림/할당: SLO 위반 시 Datadog monitor 으로 알림을 보내고, 담당자에게 할당까지 할 수 있도록한다.
아래부터는 핸즈온 중 다룬 이론 정리입니다.
Ops 팀 확장성 문제: 서비스 규모·복잡도가 커질수록 운영 인력을 선형적으로 늘리는 방식은 한계가 있음.
해결 우선순위
정의: 사용자가 체감하는 품질을 분자/분모가 명확한 수식으로 정의한 지표.
예시
정의: 특정 기간 동안 SLI가 만족해야 하는 목표.
좋은 문장 예시
기간·대상·퍼센트가 빠지면 SLO로 불완전하다.
| 가용성 | 연간 허용 중단시간 |
|---|---|
| 99.0% | 3일 15시간 36분 |
| 99.5% | 1일 19시간 48분 |
| 99.9% | 8시간 45분 36초 |
| 99.95% | 4시간 22분 48초 |
| 99.99% | 52분 34초 |
| 99.999% | 5분 15초 |
공식: Burn rate = (현재 오류율) / (1 − SLO)
운영 팁: 다중 윈도우로 빠른/느린 소모를 함께 감지
이번 핸즈온은 기존의 단순 에러 알림을 넘어, 사용자 체감 품질을 수치로 정의(SLI) → 기간 목표(SLO) → 버짓 기반 운영으로 연결하는 SRE 운영의 뼈대를 체감하게 해 주었다. 이벤트·연휴 등 변동 구간에 특히 효과적이며, 팀의 확장 가능한 운영을 위한 기본기를 갖추는 데 큰 도움이 된다.