Change Management

하루·2026년 3월 20일

서비스 장애의 70% 이상은 변경(Change)에서 발생한다. 새 기능 배포, 설정 변경, 인프라 업그레이드 — 전부 변경이다.

Change Management는 변경으로 인한 장애를 최소화하기 위한 프로세스다. 변경을 막는 게 아니라, 변경을 안전하게 하는 것이 목적이다.

변경의 종류

변경을 안전하게 하는 핵심은 점진적 배포다.

Canary 배포
전체 트래픽 중 일부(예: 1~5%)에만 먼저 배포한다. 문제가 없으면 점진적으로 확대하고, 문제가 생기면 해당 트래픽만 롤백하면 된다.

Blue/Green 배포
기존 환경(Blue)을 그대로 두고 새 환경(Green)을 별도로 구성한다. 준비되면 트래픽을 한 번에 전환하고, 문제 시 Blue로 즉시 롤백 가능하다.

Feature Flag
코드 배포와 기능 활성화를 분리한다. 코드는 배포됐지만 플래그를 끄면 사용자에게 노출되지 않는다. 특정 사용자 그룹에만 먼저 켤 수도 있다.

Change Management 수준을 측정하는 4가지 지표다.

배포를 자주 하면서 Change Failure Rate가 낮은 팀이 잘하는 팀이다.

배포했는데 문제가 생기면 빠르게 롤백할 수 있어야 한다.