
요약
데이터독에서 직접 발표한 공통 세션으로, 데이터독을 사용한 사용자들의 2024년 트렌드를 정리하고, 데이터독이 홍보하고 싶은 신기술 7개를 소개하였다. Live Debugger, Mobile App Testing이 가장 흥미로웠고, on-call 기능도 슬랙 알람을 대체할 수 있는 보다 효과적인 알람 시스템을 구축할 수 있을지 궁금해졌다.
2024 한국 사용 트렌드 탑 3
1. E2E (End to End) 분석
- datadog 을 이용한 사용자 모니터링 증가
- VOC 분석 수월
- 실제 고객들이 어떤 형태로 이용했는지에 대한 녹화 재연 분석
- RUM, Session Replay
- 프론트 모니터링
2. 비즈니스 KPI와 IT 성능 지표 연계 분석
- 비즈니스 매출 KPI ↔ 백엔드 모니터링 을 1개의 모니터링 대시보드에서 확인
- 이슈에 따른 비즈니스 임팩트 분석
3. 보안
- 클라우드 보안 (인프라, 계정, 리소스)
- 보안 이벤트 분석 (cloudtrail - S3)
- 어플리케이션 취약점 (injection, SSRF 등)
- 특정 IP 차단도 가능
- 코드 취약점 (github, github action)
- 정적 분석 가능
- CI/CD 파이프라인에도 적용 가능
⇒ 보안 감사 대응용 항목별 점검 대시보드
⇒ Security ↔ Observability 연계
2024 주요 7가지 신기능
For Developers
1. Live Debugger (beta)
- 에러 트랜잭션에서 요청된 요청/응답 파라미터를 확인 가능
- production 환경에서 exception이 발생 시점의 로컬 변수 캡쳐본을 확인할 수 있음!!
- 마치 인텔리제이 디버깅 툴과 유사하지만 실제 프로덕션에서 발생한 에러 내부의 변수 값 스냅샷을 볼 수 있다
- APM에서 특정 변수 활성화하여 사용
- 백엔드 개발자 입장에서 제일 흥미로웠음
- 개인적으로 빠르게 디버깅이 가능하고, 에러 재현이 어려운 상황에 유용할 것 같으나 모든 변수 캡쳐본이 필요하다면 비용이 많이 들 수도 있지 않을까 싶음
2. Mobile App Testing
- APK 파일만으로 단말기 없이 반복 테스트 진행
- 리얼 디바이스 기준으로 테스트 가능
- 모바일 성능 지표 등 분석 가능
- 추후 월부에서 앱을 개발하면 적용해보기 좋을 듯
3. Code Analysis (beta)
- 보안 취약, 코드 품질 관련 정적 분석
- 라이브러리 버전 및 취약점 검사
- Sonarqube 대체 가능 & 라이브러리 버전 검사도 해주기 때문에 나쁘지 않다고 생각
For Infra Engineers
4. Network Path
- 네트워크 경로의 Hop 간 레이턴시를 분석
- 여러 터미널 창을 켜두어서 확인해야 했으나 특정 변수만 활성화하여 가능
5. On-Call (beta) for
- 긴급상황 발생시 담당자에게 조건에 맞게 알려줘요
- 모니터 알람 장애시 전화, 문자, 모바일 앱 푸시 기능을 확인할 수 있음
- 1차 담당자가 응답이 몇분 안에 없으면 2차 담당자에게 바로 연락이 가도록 함
- 별도 신청 필요
For Data Engineers
6. Data Jobs Monitoring
- 느린 Spark Job을 식별하고, Stage 별 특이사항 확인
- stage에서 어떤 일이 일어나고 있는지, 얼마나 리소스를 사용하고 있는지 알 수 있음
7. LLM Observibility
- LLM 요청의 성능, 에러 원인과 답변의 퀄리티를 분석할 수 있음
- 토큰 수 도 확인 가능
- 특정 유저, error에 대해서만 필터링 가능
- 적합한 답을 주고 있는지 판단할 수 있음
- trace와 연계하여 여러 레이어에서 어떤 API를 호출하는지 확인 가능