Production Readiness Review

하루·2026년 3월 31일

Production Readiness Review가 뭔데

기능이 완성됐다고 바로 프로덕션에 올리면 안 된다. 모니터링이 없거나, On-call 담당자가 없거나, 장애 대응 절차가 없는 상태로 나가면 첫 장애 때 아무것도 못 한다.

PRR은 서비스가 프로덕션에 나갈 준비가 됐는지 체계적으로 검토하는 프로세스다.


PRR이 필요한 이유

상황문제
모니터링 없이 배포장애가 나도 모른다
Runbook 없이 배포장애가 나도 대응을 못 한다
SLO 없이 배포서비스가 잘 되는지 판단 기준이 없다
On-call 없이 배포야간 장애 때 아무도 안 받는다

PRR 체크리스트

Observability

  • 메트릭이 수집되고 있는가

  • 로그가 중앙에 수집되고 있는가

  • 대시보드가 있는가

  • 핵심 트레이스가 설정되어 있는가

    Alerting

  • SLO 기반 알림이 설정되어 있는가

  • 알림 티어가 Page / Ticket으로 구분되어 있는가

  • 알림이 적절한 채널로 전달되는가

    On-call

  • On-call 담당자가 지정되어 있는가

  • Escalation Policy가 있는가

  • Runbook이 작성되어 있는가

    Reliability

  • SLI / SLO가 정의되어 있는가

  • Error Budget이 설정되어 있는가

  • 장애 시 롤백 절차가 있는가

  • Graceful Degradation이 고려되어 있는가

    Change Management

  • 배포 전략이 정의되어 있는가 (Canary / Blue-Green)

  • Feature Flag가 적용되어 있는가

  • DB 스키마 변경 시 하위 호환이 유지되는가


    Launch Criteria

    체크리스트를 다 채웠다고 바로 나가는 게 아니다. 프로덕션 출시를 허용하는 최소 기준이다.

    등급기준예시
    Must (필수)이게 없으면 출시 불가SLO 정의, 기본 알림, Runbook
    Should (권장)없으면 리스크가 있지만 출시는 가능완전한 대시보드
    Nice to have있으면 좋지만 없어도 됨고급 트레이싱

    PRR 프로세스

  1. 개발팀이 PRR 문서 작성 - 체크리스트 항목을 직접 채운다

  2. SRE팀 검토 - 누락된 항목, 리스크 파악

  3. 피드백 반영 - Must 항목 미충족 시 출시 보류

  4. 출시 승인 - Launch Criteria 충족 시 승인

  5. 출시 후 모니터링 - 초기 트래픽 유입 시 집중 모니터링


    PRR과 지금까지 배운 것의 연결

    PRR은 지금까지 배운 모든 개념의 종합이다.

    PRR 항목관련 주차
    SLI / SLO1주차
    Error Budget2주차
    Observability4주차
    Alerting5주차
    On-call / Runbook8주차
    Change Management11주차
    Reliability Patterns12주차

    정리

    PRR은 지금까지 배운 SRE 개념 전체의 종합 점검표다. 기능 완성이 출시 기준이 아니라, 모니터링/알림/On-call/SLO/롤백이 모두 갖춰진 상태가 출시 기준이다. Must 항목이 하나라도 빠져
    있으면 출시를 보류하는 것이 맞다.

0개의 댓글