[Datadog] Datadog으로 사용자 경험 완성하기 by DeepBrain 후기

Damongsanga·2024년 9월 29일
0

요약

가장 흥미로웠던 발표로, 주제는 "Sevice Performance & Health Check, 어떻게 효율적으로 할 수 있을까?" 이었다. QA, CS에서 겪는 문제들을 해결하기 위해 어떻게 Datadog의 기술을 활용했는지에 대해 설명했다. Synthetic Test와 RUM, 총 2가지 기술을 소개했고 둘 다 효과적인 기술이었다!


1. QA ⇒ Synthetic Test

Needs!

  • 업무 효율성
    • 여러개의 Region, 시나리오, 시간대별로 QA를 해야 한다면 ..!
    • 비개발자인 QA : 자동화 스크립트화가 어려움
  • 에러 프로세스
    • 에러 상황에 따른 빠른 전파 및 에러 원인 파악
    • 에러에 대한 내부 테스트 및 재현이 어려움
  • 지표 관리 및 시각화

1.1. 설정 방법

  • 여러 브라우저 선택 가능

  • 원하는 AWS Region 기반 테스트 진행 가능

  • 네트워크 이슈로 인한 테스크 실패 시 빠른 재시도 가능

  • 테스트 주기 설정 가능 (TZ 지정 가능)

  • 코드 기반의 스크립트가 아닌 실제 클릭 기반으로 테스트를 만들 수 있음
  • 클릭 할 때마다 옆에 스텝들이 자동으로 들어감!

1.2. 장애 원인 파악 프로세스 개선

  • AS-IS
    • 테스트 중 에러 발생 시 QA가 공유하고, 에러를 다시 찾고 재연하는 과정에서 시간 오래 걸림
  • TO-BE
    • 어떤 스텝에서 에러가 발생했는지 바로 알 수 있음
    • QA는 링크 하나만 공유해도 어떤 부분에서 에러가 발생했는지 개발자에게 쉽게 제공할 수 있음
    • Slack으로 알람을 줄 수 있음
    • 이상 여부를 QA 거치지 않고 바로 확인할 수도 있음

1.3. 지표 관리 시각화

  • 각 브라우저별, 리전별 성공된 케이스를 고요 시간으로 정리해야 한다면? → QA가 할 일이 너무 많음
  • 자료 관리 시각화 방법
  • 대시보드 image

2. CS ⇒ RUM (Real User Monitoring)

Needs!

  • 고객 VoC
    • 어떤 환경에서 어떤 상황에서 어떤 에러가 발생했는지 알기 어려움
  • 선제적 대응
    • 실시간 사용자 데이터에 따른 이슈 및 장애 여부 파악
  • 에러 분석
    • 프론트 & 백 연계 분석

2.1. RUM 활용 고객 VoC 대응

  • VOC 유저 개인정보는 난수화 가능

Session Replay

  • 실제 영상은 아니고 스냅샷을 영상처럼 보이게 함
  • 사용자 입력값 혹은 텍스트 전체의 마스킹 가능
    • 이로 개인정보 방지할 수 있음

2.2. RUM 활용 선제적 대응

  • 실시간 사용자 데이터 시각화 by Dashboard
    • 배포 버전에 따라 색을 다르게 하여 배포 후 롤백의 근거로 삼을 수도 있음

2.3. RUM Error 분석

  • Frontend ↔ Backend 통틀어 발생한 Error를 정확히 파악하여 에러 책임을 확실히 할 수 있음

3. 효과 및 개인 의견

  • QA 40% 시간감소 되었다고 함
    • 월부는 여러 리전을 활용하지 않기 때문에 이만큼 감소가 될지는 알 수 없음
    • 다만 여러 디바이스에 대해 동일하게 동작하는지를 테스트하는데에는 효과적일 것으로 예정
  • CS 60% 시간 감소 되었다고 함
    • RUM Session Replay 등을 활용해서 실제 VoC 고객의 상황을 다시 확인함으로서 분석 시간이 매우 줄어듦
    • 문제 상황을 재현하지 않고도 에러 상황을 확인할 수 있으며 이를 개발자, 비개발자 모두 공유
profile
향유하는 개발자

0개의 댓글