[AWS SAA] 재해복구 DR(Disaster Recovery) 전략 정리

시훈·2025년 4월 13일

AWS-SAA aws 기술면접 클라우드

AWS SAA

목록 보기

28/43

🔥 재해 복구란?

재해 복구(Disaster Recovery)는 시스템에 장애나 예기치 못한 중단이 발생했을 때, 서비스를 빠르게 복구하고 지속적으로 운영할 수 있도록 준비하는 전략이다. AWS에서는 다양한 DR 전략을 제공하며, 복구 시간과 비용 사이에서 적절한 균형을 선택할 수 있다.

🧭 RTO와 RPO 간단 설명

용어	의미	예시
RTO (Recovery Time Objective)	서비스가 중단된 후 복구까지 걸리는 최대 허용 시간	장애 후 15분 내 복구
RPO (Recovery Point Objective)	데이터 손실 허용 범위, 마지막 백업 시점과 장애 발생 시점 간 거리	최대 10분 전 데이터까지만 복구 가능

📊 AWS DR 전략 비교표

전략	비용	RTO/RPO 수준	설명
Backup & Restore	💰 저렴	⏱️ 느림 (시간 단위)	백업만 존재, 복구 시 새 인프라 구성 필요
Pilot Light	💰💰	⏱️ 중간 (10~90분)	핵심 인프라만 사전 구성, 나머지는 장애 발생 시 생성
Warm Standby	💰💰💰	⏱️ 빠름 (5~15분)	축소 버전의 전체 시스템을 상시 가동
Multi-Site (Active-Active)	💰💰💰💰	⚡ 매우 빠름 (거의 실시간)	DR 리전에도 동일한 스펙의 인프라를 상시 운영

💾 Backup & Restore

가장 저렴한 방식
평상시에는 리소스를 사용하지 않음
장애 시, 백업 데이터를 복원하고 전체 인프라를 새로 구축해야 함
일반적으로 RTO/RPO는 수 시간 단위 (예: 4~24시간)

🚦 Pilot Light

핵심 시스템만 최소 구성으로 DR 리전에 상시 유지
예: 데이터베이스만 동기화 (복제)
장애 시 나머지 인프라 구성 필요 → 시간이 다소 소요
RTO/RPO: 약 10분 ~ 1시간 수준

🔥 Warm Standby

전체 시스템을 축소 버전으로 항상 실행
DR 리전에 애플리케이션과 데이터베이스 등 모두 배포되어 있으나 스펙이 낮음
장애 시 빠르게 스케일업하여 전환 가능
RTO/RPO: 약 1~10분 수준

🌍 Multi-Site (Active-Active)

양쪽 리전 모두에서 전체 인프라를 실시간 운영
DNS 라우팅 등을 통해 자동 전환 가능
비용은 가장 높지만, 복구 속도는 가장 빠름
실시간 데이터 복제 및 운영 환경 동기화 필요
RTO/RPO: 거의 실시간

🧠 언제 어떤 전략을 선택해야 할까?

목적	추천 DR 전략
비용 절감이 우선	Backup & Restore
핵심 데이터만 빠르게 복구	Pilot Light
빠른 복구와 중간 비용	Warm Standby
최고 수준의 가용성과 즉시 복구	Multi-Site

✅ 마무리 정리

AWS DR 전략은 RTO/RPO와 예산을 기준으로 선택해야 한다.
시험에서는 비용 vs 복구 속도를 기반으로 선택지를 구분할 줄 알아야 한다.
DR 리전을 사용할 경우 리소스 배치, DB 복제, 자동 전환 등 아키텍처 구성이 함께 고려되어야 한다.

Backend Developer / Cloud Engineer

이전 포스트

[AWS SAA] AWS RDS Proxy란?

다음 포스트

[AWS SAA] AWS Systems Manager Session Manager란?

0개의 댓글