안녕하세요, devyu입니다.
오늘은 Datadog Live Seoul 2024에서 DeepBrainAI가 발표한 "Datadog으로 사용자 경험 완성하기" 내용을 정리해보겠습니다. DeepBrainAI는 AI 기반 가상 인간과 다양한 AI 솔루션을 개발하는 기업으로, 이번 발표에서는 서비스 성능 및 Health Check를 효율적으로 개선하는 방법과 실제 고객 장애 분석 사례를 중심으로 Datadog 활용 방안을 공유했습니다.
DeepBrainAI 소개
DeepBrainAI는 Generative AI Avatar를 기반으로 다양한 산업에서 AI 기술을 활용한 솔루션을 제공하는 기업입니다.
서비스 성능 및 Health Check 효율적으로 개선하기
서비스 운영 과정에서 QA 및 개발자들이 겪는 가장 큰 고민은 장애 감지 및 대응입니다. 기존 방식으로는 테스트 및 오류 분석에 많은 시간이 소요되며, 데이터 시각화와 관리 또한 어렵습니다.
이 문제를 해결하기 위해 Datadog의 Synthetic Test 및 RUM (Real User Monitoring) 기능을 도입하여 업무 효율성과 장애 대응 속도를 개선했습니다.
1. QA 프로세스 개선 - Synthetic Test 활용
QA팀과 개발자들의 주요 문제점
- 여러 Region, 시나리오, 시간대별로 QA를 수행해야 하지만 자동화가 어려움
- 비개발자인 QA가 자동화 스크립트를 작성하는 데 어려움
- 장애 발생 시 테스트 과정에서 오류 원인 분석이 지연됨
- 테스트 결과를 수동으로 정리하고 시각화하는 데 시간이 많이 소요됨
Synthetic Test를 통한 해결 방법
- 다양한 브라우저 및 AWS Region 기반으로 테스트 URL을 지정하고 자동화 가능
- 네트워크 이슈로 인해 간헐적으로 실패할 경우 빠른 재시도 기능 제공
- 테스트 주기를 시간대별로 설정 가능
- 클릭 기반 UI 자동화 기능 제공 (비개발자도 쉽게 테스트 가능)
장애 프로세스 개선
기존에는 QA가 수동으로 오류를 탐색하고 개발자에게 공유해야 했으나, Synthetic Test를 활용하면 테스트 실패 지점을 명확히 파악할 수 있습니다.
- AS-IS: QA가 직접 오류 내용을 개발자에게 전달 → 개발자가 로그를 확인하고 추가 정보 요청 → QA가 다시 확인 및 공유 → 장애 해결 지연
- TO-BE: Synthetic Test를 통해 테스트 단계별 오류 지점을 바로 확인 → QA는 링크만 공유하면 오류 원인을 개발자가 즉시 확인 가능 → Slack 등으로 자동 알람 전송
지표 관리 및 시각화
테스트 결과를 관리하고 시각화하는 것은 QA 및 개발자들에게 중요한 과제입니다. Datadog의 Synthetic Test를 활용하면 리전 및 브라우저별 성공률과 성능 데이터를 자동으로 시각화하여 운영 효율성을 높일 수 있습니다.
2. CS 및 개발팀의 장애 분석 - Real User Monitoring (RUM) 활용
CS팀과 개발자들의 주요 문제점
- 고객이 제보한 장애가 어떤 환경에서 발생했는지 확인이 어려움
- 실시간 사용자 데이터를 기반으로 이슈를 사전에 감지할 수 없음
- 프론트엔드와 백엔드 간의 문제를 연계 분석하는 데 어려움
RUM을 통한 해결 방법
(1) 고객 VoC 대응 개선
- RUM을 활용하면 고객이 실제로 겪은 문제를 Session Replay로 재현하여 원인을 분석할 수 있습니다.
- 개인정보 보호 기능을 제공하여 사용자 입력값 마스킹 가능 → 보안 문제 없이 VoC 대응 가능
- 고객이 제보한 장애와 동일한 세션을 개발자가 즉시 확인할 수 있어 문제 해결 속도가 빨라짐
(2) 실시간 모니터링 및 선제적 대응
- 대시보드에서 실시간 사용자 데이터 및 장애 발생 여부를 즉시 파악 가능
- 배포 버전별로 트래픽 및 오류 발생 여부를 분석하여 배포 후 롤백 여부를 결정할 근거 제공
(3) 프론트엔드 & 백엔드 에러 분석
- 백엔드 API 호출과 프론트엔드 이벤트를 통합 분석하여 어디서 문제가 발생했는지 명확히 파악 가능
- RUM을 통해 어떤 버튼 클릭 시 에러가 발생했는지, API 응답이 실패했는지 등 종합적으로 분석 가능
3. 효과 분석 - Datadog 도입 전후 비교
Datadog의 Synthetic Test 및 RUM 기능을 도입한 후 다음과 같은 효과를 얻었습니다.
- QA 업무 소요 시간 40% 감소 → 테스트 자동화를 통해 수작업 테스트 및 오류 분석 시간이 단축됨
- CS팀 VoC 대응 시간 60% 감소 → RUM을 활용하여 문제를 신속하게 파악하고 대응 가능
- 대시보드 및 알람을 통한 실시간 대응 가능 → 데이터 시각화 및 자동화된 모니터링을 통해 서비스 품질 유지
마무리
이번 정리글에서는 DeepBrainAI가 Datadog을 활용하여 서비스 품질을 향상시키고, Synthetic Test 및 RUM을 활용해 QA 및 CS 업무를 효율화한 사례를 소개했습니다. 개인적으로 가장 인상깊었던 발표였던 것 같습니다.