💾 1. 백업 및 복구(Backup and Recovery)의 개요
백업 및 복구는 시스템의 안정적인 운영과 비즈니스 연속성(Business Continuity)을 확보하기 위한 핵심적인 관리 활동입니다. 이는 시스템 장애, 데이터 손상, 랜섬웨어 공격, 자연재해 등 예기치 않은 상황 발생 시 데이터를 안전하게 보호하고, 최대한 빠른 시간 내에 정상적인 서비스 상태로 되돌리는 것을 목표로 합니다.
- RTO (Recovery Time Objective, 복구 목표 시간): 장애 발생 후 서비스를 복구 완료해야 하는 최대 허용 시간. (시간 기준)
- RPO (Recovery Point Objective, 복구 시점 목표): 장애 발생 시 데이터 손실을 허용할 수 있는 최대 시간 간격. (데이터 시점 기준)
📐 2. 설계 및 계획 단계 (Design and Planning Phase)
백업 및 복구 시스템의 성공은 철저한 설계 및 계획 단계에서 결정됩니다.
2.1. 요구사항 분석 및 SLA 정의 (SLA Definition)
| 항목 | 고려 사항 |
|---|
| 핵심 데이터 식별 | 데이터의 중요도, 기밀성, 법적 규제 준수 여부(Compliance)에 따라 백업 우선순위를 결정합니다. |
| RTO 및 RPO 정의 | 각 서비스 및 데이터의 중요도에 따라 RTO와 RPO 값을 구체적으로 설정합니다. (예: 핵심 DB: RTO 1시간, RPO 5분) |
| 백업 보존 기간 | 법규(개인정보보호법 등) 및 감사(Audit) 요구사항에 맞춰 보존 기간을 결정하고, 미디어 유형(Tape, Disk)을 선택합니다. |
2.2. 백업 아키텍처 설계 (Architecture Design)
시스템 환경, RTO/RPO 요구사항 및 예산을 고려하여 최적의 아키텍처를 선택합니다.
- 백업 매체 계층화:
- Disk (D2D): 빠른 백업/복구 속도 제공 (RTO/RPO 단축), 최근 백업본 저장.
- Tape (D2T): 장기 보존 및 저렴한 비용, 재해 복구(DR) 목적의 Off-site 보관.
- Cloud (D2C): 확장성 및 지리적 분산(DR)에 유리.
- 3-2-1 규칙: 백업본을 3개 만들고, 2가지 다른 매체에 저장하며, 1개는 Off-site (원격지/클라우드)에 보관하는 것을 원칙으로 합니다.
- 네트워크 설계: 백업 트래픽이 운영 네트워크에 부하를 주지 않도록 별도의 백업 네트워크(LAN-Free 또는 LAN-Based)를 구성합니다.
🏃 3. 실행 단계 (Execution Phase)
실행 단계에서는 정의된 정책과 아키텍처에 따라 백업 작업을 수행하고 관리합니다.
3.1. 백업 방식 및 기술 (Backup Methods and Techniques)
| 구분 | 설명 | 적용 목적 |
|---|
| 전체 백업 (Full) | 모든 데이터를 백업합니다. 복구는 빠르지만, 백업 시간 및 용량이 많이 소요됩니다. | 최초 백업 및 주기적인 기준점 확보 |
| 차등 백업 (Differential) | 마지막 전체 백업 이후 변경된 모든 데이터를 백업합니다. 복구 시 전체 백업본 + 마지막 차등 백업본 필요. | 전체 백업 대비 시간 절약, 복구 복잡도 중간 |
| 증분 백업 (Incremental) | 마지막 백업(전체 또는 증분) 이후 변경된 데이터만 백업합니다. 백업 시간/용량 최소화. 복구 시 모든 백업본 필요. | 백업 시간 최소화, 복구 복잡도 높음 |
| Continuous Data Protection (CDP) | 데이터 변경 사항을 실시간 또는 준실시간으로 캡처하여 저장. RPO를 거의 0에 가깝게 구현. | 미션 크리티컬(Mission-Critical) 시스템 |
3.2. 데이터 보호 기술
- 스냅샷(Snapshot): 특정 시점의 시스템 상태를 빠르게 기록하여 복구 시점으로 활용 (HA 및 가상화 환경에서 유용).
- 데이터 중복 제거(Deduplication): 백업 데이터 내 중복 블록을 식별하여 제거함으로써 스토리지 용량 및 전송 대역폭을 절감.
- 암호화(Encryption): 백업 데이터를 저장 및 전송할 때 암호화하여 데이터 기밀성 및 보안을 확보.
🔍 4. 검증 및 복구 단계 (Verification and Recovery Phase)
백업 시스템은 복구가 가능할 때만 의미가 있습니다. 복구 단계는 시스템의 최종 목표입니다.
4.1. 백업 데이터 검증 (Verification)
- 복구 가능성 테스트: 백업이 완료된 후, 백업 파일의 무결성(Integrity)을 검사하고, 주기적으로 실제 테스트 환경에 복구해보는 모의 복구 훈련(Restore Drill)을 수행하여 RTO 달성 가능성을 검증해야 합니다. (가장 중요)
- 모니터링: 백업 작업의 성공/실패 여부, 경고 알림, 미디어 상태 등을 지속적으로 모니터링하여 오류 발생 시 즉각 대응합니다.
4.2. 복구 실행 (Recovery Execution)
장애 발생 시 정의된 절차(매뉴얼)에 따라 신속하고 정확하게 복구를 수행합니다.
- 장애 감지 및 보고: 장애를 감지하고 장애 유형 및 영향 범위를 신속하게 파악합니다.
- 복구 절차 개시: RPO 및 RTO에 따라 복구 시점을 결정하고 복구 절차를 시작합니다.
- 데이터 복원: 백업 미디어에서 데이터를 복원 대상 시스템으로 복구합니다.
- 서비스 재개: 복구된 시스템의 기능 및 데이터 정합성을 확인한 후, 사용자에게 서비스를 재개합니다.
이러한 전 과정을 문서화하고 주기적으로 갱신하여 DR 계획(재해 복구 계획)과 통합 관리해야 합니다.