이미지 출처 : https://1000logos.net/datadog-logo/
Datadog APM 서비스 관련하여 교육 들은 내용이 있어서 정리!
경로 : infrastructure -> k8s overview -> Troubleshooting Patterns
Kubernetes 클러스터에서 자주 발생하는 다섯 가지 문제를 식별하고 해결하기 위한 지침을 제공
증상단계에 있는 파드, 컨테이너 재시작, 준비되지 않는 노드 확인등을 시각화하여 확인 가능
Troubleshooting Patterns 참고자료 : Equip any user to monitor Kubernetes with the Overview Page
추가로, k8s overview 화면에서 Remediation 기능 추가 예정 (이미지 ID가 변경되고 생성되는 과정을 로그로 남김, 일반적인 Kubernetes 문제 해결 패턴을 기반으로 설명과 제안이 제공)
Remediation 참고자료 : Datadog Introduces Kubernetes Active Remediation to Provide Curated Guidance and End-to-End Management of Kubernetes Environments
Amazon ECS 환경의 종합 모니터링을 위한 페이지로 Fargate 메모리 부족 등을 해당 페이지에서 확인 가능
ECS Explorer 참고자료 : Amazon Elastic Container (ECS) Explorer
APM을 Endpoints 기준으로 확인한 뒤, LATENCY 내림차순을 확인하는것을 추천
시간이 너무 오래 걸린 서비스에 대한 로그를 자세하게 확인 가능
APM 로그를 사용자 커스텀 매트릭으로 보관해두면 15개월간 확인 가능
커스텀 매트릭 참고자료 : APM 메트릭
기존 APM은 소스코드를 변경해야 로그와 트레이스 데이터 확인이 가능하나, 해당 기능은 코드 변경 없이 실시간으로 오류 발생 추적 가능
오류 발생 시점을 자동 캡쳐하여 함수의 파라미터 및 변수값등이 자동으로 저장됨
if문, for문, try-except 블록과 같은 특정 코드 부분이 어떤 값으로 실행되었는지 실시간으로 확인 가능
단, node.js 포함 몇몇 서비스는 preview 단계
Instrumentation 관련자료 : 동적 계측
APM -> Database Monitoring -> Recommendations 사용 추천
데이터베이스 성능 최적화 및 잠재적 문제 사전 식별 가능
인덱스 누락 및 사용되지 않는 인덱스, 디스크 공간 부족, 장시간 실행 쿼리등에 대한 분석을 제공
Recommendations 관련자료 : Recommendations
Application Security Management (ASM)을 이용한 APM 보안 활성화
요청 위조나 SQL Injection, XSS 등과 같은 코드 수준 취약성을 이용하려는 공격에 대한 보호 기능 제공
서버, Docker, k8s, ECS, Fargate에서 직접 호스팅되는 앱을 모니터링 하고 보호하기 위한 조치
위협이 탐지되면 보안 신호가 Datadog에서 생성되며, HIGH 또는 CRITICAL 심각도 보안 신호의 경우 알림은 Slack, 이메일, PagerDuty를 통해 팀에 알리고 위협에 대한 실시간 컨텍스트를 제공
아래와 같이, 보안 위협을 가한 특정 IP의 요청단계등을 시각화하여 확인 가능
에러를 보다 손쉽게 확인하는 방법으로 APM -> Traces -> status Error 체크를 추천
전체 에러를 Timeseries등 다양한 차트로 확인 가능하며, Top List등으로 확인 시 자주 발생하는 에러 순으로 확인 가능