기능이 완성됐다고 바로 프로덕션에 올리면 안 된다. 모니터링이 없거나, On-call 담당자가 없거나, 장애 대응 절차가 없는 상태로 나가면 첫 장애 때 아무것도 못 한다.
PRR은 서비스가 프로덕션에 나갈 준비가 됐는지 체계적으로 검토하는 프로세스다.
| 상황 | 문제 |
|---|---|
| 모니터링 없이 배포 | 장애가 나도 모른다 |
| Runbook 없이 배포 | 장애가 나도 대응을 못 한다 |
| SLO 없이 배포 | 서비스가 잘 되는지 판단 기준이 없다 |
| On-call 없이 배포 | 야간 장애 때 아무도 안 받는다 |
Observability
메트릭이 수집되고 있는가
로그가 중앙에 수집되고 있는가
대시보드가 있는가
핵심 트레이스가 설정되어 있는가
Alerting
SLO 기반 알림이 설정되어 있는가
알림 티어가 Page / Ticket으로 구분되어 있는가
알림이 적절한 채널로 전달되는가
On-call
On-call 담당자가 지정되어 있는가
Escalation Policy가 있는가
Runbook이 작성되어 있는가
Reliability
SLI / SLO가 정의되어 있는가
Error Budget이 설정되어 있는가
장애 시 롤백 절차가 있는가
Graceful Degradation이 고려되어 있는가
Change Management
배포 전략이 정의되어 있는가 (Canary / Blue-Green)
Feature Flag가 적용되어 있는가
DB 스키마 변경 시 하위 호환이 유지되는가
체크리스트를 다 채웠다고 바로 나가는 게 아니다. 프로덕션 출시를 허용하는 최소 기준이다.
| 등급 | 기준 | 예시 |
|---|---|---|
| Must (필수) | 이게 없으면 출시 불가 | SLO 정의, 기본 알림, Runbook |
| Should (권장) | 없으면 리스크가 있지만 출시는 가능 | 완전한 대시보드 |
| Nice to have | 있으면 좋지만 없어도 됨 | 고급 트레이싱 |
개발팀이 PRR 문서 작성 - 체크리스트 항목을 직접 채운다
SRE팀 검토 - 누락된 항목, 리스크 파악
피드백 반영 - Must 항목 미충족 시 출시 보류
출시 승인 - Launch Criteria 충족 시 승인
출시 후 모니터링 - 초기 트래픽 유입 시 집중 모니터링
PRR은 지금까지 배운 모든 개념의 종합이다.
| PRR 항목 | 관련 주차 |
|---|---|
| SLI / SLO | 1주차 |
| Error Budget | 2주차 |
| Observability | 4주차 |
| Alerting | 5주차 |
| On-call / Runbook | 8주차 |
| Change Management | 11주차 |
| Reliability Patterns | 12주차 |
PRR은 지금까지 배운 SRE 개념 전체의 종합 점검표다. 기능 완성이 출시 기준이 아니라, 모니터링/알림/On-call/SLO/롤백이 모두 갖춰진 상태가 출시 기준이다. Must 항목이 하나라도 빠져
있으면 출시를 보류하는 것이 맞다.