안녕하세요, devyu입니다.
오늘은 Datadog Live Seoul 2024에서 드라마앤컴퍼니(리멤버)의 DevOps Tech Lead 이정민(Tony) 님이 발표한 "12년차 스타트업의 아키텍처 리팩토링 돌아보기" 내용을 정리해보겠습니다.
드라마앤컴퍼니는 국내 대표적인 프로페셔널 네트워크 서비스(PNS)인 리멤버를 운영하는 기업으로, 서비스 규모 확장과 함께 인프라 리팩토링을 진행하며 Datadog을 어떻게 활용했는지를 공유했습니다.
1. 입사 1일차 – 초기 인프라 문제
발표자는 첫 출근 후 AWS 계정을 전달받았지만, 막막함이 컸다고 합니다. 기존의 인프라는 다음과 같은 문제를 가지고 있었습니다.
- AWS 계정이 하나로 통합되어 있어, 개발/운영 환경이 분리되지 않음
- Default VPC에 모든 워크로드가 배포됨
- 정적 콘텐츠 서빙을 위한 CDN 부재, S3에서 직접 데이터 서빙
- 로그 데이터가 분산됨 (CloudWatch, 개별 호스트, APM 등)
- ISMS 인증을 위한 인프라 보안 요구사항 증가
이에 따라 확장 가능한 아키텍처 구축, 통합 가시성 확보, 보안성 강화라는 세 가지 목표로 리팩토링을 진행하게 되었습니다.
2. 확장 가능한 인프라 아키텍처 구축
2.1 IaC & GitOps 도입
기존 방식 (AS-IS)
- 일부 Terraform 코드 사용, 하지만 ECS Task Definition, Redis 등 일부 리소스만 관리
- 개발자가 로컬 환경에서 Terraform 코드 배포, IAM 권한이 광범위하게 부여됨
- Terraform 코드와 tfstate 파일을 직접 관리
리팩토링 후 (TO-BE)
- 모든 인프라를 IaC(Terraform) 기반으로 배포
- Terraform 코드를 모듈화하여 별도 Repo에서 관리
- GitOps 도입 → Atlantis를 활용하여 Git PR을 통해 Terraform 코드 배포
- DynamoDB를 활용한 State Lock 적용 → 배포 중 충돌 방지
- 99% 이상의 AWS 리소스를 코드화하여 운영
2.2 AWS Account & Network Architecture 개선
- AWS Control Tower를 활용한 계정 분리 → 개발, QA, 운영 환경을 분리하여 보안 강화
- 각 도메인별 네트워크 격리 → 명함 관리, 채용, 광고, 리서치 등 서비스별 인프라 독립성 확보
- 비용 추적성 강화 → 팀/서비스 단위로 비용을 명확하게 구분 가능
2.3 리전 마이그레이션
- 기존 서비스는 도쿄 리전(ap-northeast-1)에서 운영 중
- 한국 사용자가 많아 서울 리전(ap-northeast-2)으로 이전
- 네트워크 Latency Benchmark 결과 도쿄 대비 77% 속도 향상
- 서비스 체감 성능 개선과 더불어 AWS 비용 절감 효과까지 확보
2.4 트래픽 비용 절감
- API 간 통신이 Public 네트워크를 경유하여 NAT 비용 발생
- VPC Endpoint 및 PrivateLink를 활용하여 AWS 서비스와 내부 API 간 통신을 내부망으로 전환
- CDN 도입을 통해 정적 리소스 캐싱 → S3 API 호출 비용 절감
3. 통합 가시성 확보 – Datadog 활용
3.1 기존 모니터링 문제 (AS-IS)
- 로그 및 메트릭 데이터가 CloudWatch, APM, 개별 서버 등 여러 곳에 분산되어 있었음
- 백엔드 중심의 APM만 구축되어 있어 인프라, 네트워크, 보안 메트릭이 부족
- 각 팀이 서로 다른 모니터링 툴을 사용해 통합된 대시보드 부재
3.2 개선된 모니터링 환경 (TO-BE)
- Datadog을 단일 모니터링 플랫폼으로 채택하여 E2E 모니터링 구현
- Backend APM 연동 → 전체 백엔드 서비스의 성능 지표 분석
- Frontend 및 Mobile RUM + Session Replay 활성화 → 실제 사용자 경험 모니터링 가능
- CX팀을 위한 대시보드 구축 → 고객 지원 시 세션 리플레이 활용
- 인프라 End-to-End 모니터링 → WAF, CDN, Container, DB, 네트워크 트래픽까지 통합 모니터링 가능
- Network Performance Monitoring 활용 → 불필요한 외부 네트워크 호출 분석 및 최적화
3.3 Security Log 통합
- 기존에는 WAF, CloudTrail, SaaS 로그가 개별 관리됨
- Datadog SIEM을 활용하여 보안 로그 통합
- 보안 이벤트를 자동 탐지하고, 이상 징후 발생 시 알림 제공
4. 보안성 강화
4.1 IAM 관리 개선
기존 문제점 (AS-IS)
- 개발자마다 IAM User를 생성하여 직접 권한을 부여
- IAM Access Key를 로테이션하지 않음 → 보안 위협 증가
- AWS 접근 인원이 50명 이상으로, IAM 권한 관리가 복잡
개선 후 (TO-BE)
- AWS IAM Identity Center(Single Sign-On) 도입 → 역할(Role) 기반 권한 관리
- IAM User 생성 금지 → ECS Task Role, OIDC 인증 기반으로 IAM 관리
- Datadog SIEM Investigator 활용 → 사용자의 API 요청 로그 분석 및 권한 검토
- 미사용 IAM Role 자동 감지 및 제거 제안 → "15일 동안 사용되지 않은 Role 삭제 여부 확인"
5. 리팩토링 후 효과
- AWS 계정 개수 → 1개에서 16개로 분리하여 보안 및 가용성 강화
- IAM User 개수 → 100+명에서 0명으로 감소 (모두 Role 기반 관리)
- Datadog 도입 후 MTTA, MTTR 감소 → 장애 대응 속도 30% 개선
- 네트워크 트래픽 비용 1억 원 절감 → PrivateLink 및 CDN 도입 효과
6. 회고 및 향후 계획
잘한 점
- IaC 및 GitOps 도입으로 배포 프로세스 안정화
- AWS 계정 및 네트워크 격리를 통해 보안 및 비용 효율성 증가
- Datadog 도입으로 단일화된 모니터링 환경 구축
- 개발자들이 Datadog을 적극적으로 활용하도록 대시보드 커스터마이징 지원
향후 개선하고 싶은 점
- ECS에서 EKS로의 마이그레이션 추진 → 점점 커지는 서비스 규모에 대응
- Custom Metrics 활용한 서비스 지표 수집 → 비즈니스 KPI까지 포함한 모니터링 강화
- Datadog Workflow 기반 장애 대응 자동화 → SRV4~5 등급 장애 Runbook 자동 실행
마무리
이번 발표에서는 드라마앤컴퍼니의 AWS 인프라 리팩토링 과정과 Datadog을 활용한 모니터링 및 보안 강화 사례를 살펴봤습니다.
특히, Datadog을 통해 E2E 모니터링을 구축하고, 보안 및 비용 최적화까지 달성한 점이 인상적이었습니다.
+ 해당 회사는 AWS의 아키텍처 관련 사례를 참고할때도 인상깊게 보았던 회사라 많은 기억이 남는 것 같습니다.