재해 복구(Disaster Recovery)는 시스템에 장애나 예기치 못한 중단이 발생했을 때, 서비스를 빠르게 복구하고 지속적으로 운영할 수 있도록 준비하는 전략이다. AWS에서는 다양한 DR 전략을 제공하며, 복구 시간과 비용 사이에서 적절한 균형을 선택할 수 있다.
| 용어 | 의미 | 예시 |
|---|---|---|
| RTO (Recovery Time Objective) | 서비스가 중단된 후 복구까지 걸리는 최대 허용 시간 | 장애 후 15분 내 복구 |
| RPO (Recovery Point Objective) | 데이터 손실 허용 범위, 마지막 백업 시점과 장애 발생 시점 간 거리 | 최대 10분 전 데이터까지만 복구 가능 |
| 전략 | 비용 | RTO/RPO 수준 | 설명 |
|---|---|---|---|
| Backup & Restore | 💰 저렴 | ⏱️ 느림 (시간 단위) | 백업만 존재, 복구 시 새 인프라 구성 필요 |
| Pilot Light | 💰💰 | ⏱️ 중간 (10~90분) | 핵심 인프라만 사전 구성, 나머지는 장애 발생 시 생성 |
| Warm Standby | 💰💰💰 | ⏱️ 빠름 (5~15분) | 축소 버전의 전체 시스템을 상시 가동 |
| Multi-Site (Active-Active) | 💰💰💰💰 | ⚡ 매우 빠름 (거의 실시간) | DR 리전에도 동일한 스펙의 인프라를 상시 운영 |
| 목적 | 추천 DR 전략 |
|---|---|
| 비용 절감이 우선 | Backup & Restore |
| 핵심 데이터만 빠르게 복구 | Pilot Light |
| 빠른 복구와 중간 비용 | Warm Standby |
| 최고 수준의 가용성과 즉시 복구 | Multi-Site |