
요약
가장 흥미로웠던 발표로, 주제는 "Sevice Performance & Health Check, 어떻게 효율적으로 할 수 있을까?" 이었다. QA, CS에서 겪는 문제들을 해결하기 위해 어떻게 Datadog의 기술을 활용했는지에 대해 설명했다. Synthetic Test와 RUM, 총 2가지 기술을 소개했고 둘 다 효과적인 기술이었다!
Needs!
- 업무 효율성
- 여러개의 Region, 시나리오, 시간대별로 QA를 해야 한다면 ..!
- 비개발자인 QA : 자동화 스크립트화가 어려움
- 에러 프로세스
- 에러 상황에 따른 빠른 전파 및 에러 원인 파악
- 에러에 대한 내부 테스트 및 재현이 어려움
- 지표 관리 및 시각화
1.1. 설정 방법
- 코드 기반의 스크립트가 아닌 실제 클릭 기반으로 테스트를 만들 수 있음
- 클릭 할 때마다 옆에 스텝들이 자동으로 들어감!
1.2. 장애 원인 파악 프로세스 개선
- AS-IS
- 테스트 중 에러 발생 시 QA가 공유하고, 에러를 다시 찾고 재연하는 과정에서 시간 오래 걸림
- TO-BE
- 어떤 스텝에서 에러가 발생했는지 바로 알 수 있음
- QA는 링크 하나만 공유해도 어떤 부분에서 에러가 발생했는지 개발자에게 쉽게 제공할 수 있음
- Slack으로 알람을 줄 수 있음
- 이상 여부를 QA 거치지 않고 바로 확인할 수도 있음
1.3. 지표 관리 시각화
- 각 브라우저별, 리전별 성공된 케이스를 고요 시간으로 정리해야 한다면? → QA가 할 일이 너무 많음
- 자료 관리 시각화 방법
- 대시보드 image
Needs!
- 고객 VoC
- 어떤 환경에서 어떤 상황에서 어떤 에러가 발생했는지 알기 어려움
- 선제적 대응
- 실시간 사용자 데이터에 따른 이슈 및 장애 여부 파악
- 에러 분석
2.1. RUM 활용 고객 VoC 대응
Session Replay
- 실제 영상은 아니고 스냅샷을 영상처럼 보이게 함
- 사용자 입력값 혹은 텍스트 전체의 마스킹 가능
2.2. RUM 활용 선제적 대응
- 실시간 사용자 데이터 시각화 by Dashboard
- 배포 버전에 따라 색을 다르게 하여 배포 후 롤백의 근거로 삼을 수도 있음
2.3. RUM Error 분석
- Frontend ↔ Backend 통틀어 발생한 Error를 정확히 파악하여 에러 책임을 확실히 할 수 있음
3. 효과 및 개인 의견
- QA 40% 시간감소 되었다고 함
- 월부는 여러 리전을 활용하지 않기 때문에 이만큼 감소가 될지는 알 수 없음
- 다만 여러 디바이스에 대해 동일하게 동작하는지를 테스트하는데에는 효과적일 것으로 예정
- CS 60% 시간 감소 되었다고 함
- RUM Session Replay 등을 활용해서 실제 VoC 고객의 상황을 다시 확인함으로서 분석 시간이 매우 줄어듦
- 문제 상황을 재현하지 않고도 에러 상황을 확인할 수 있으며 이를 개발자, 비개발자 모두 공유