애플리케이션 성능 모니터링을 이용하면 로그 및 인프라스트럭처의 모니터링과 함께, 요청량 및 지연 시간 등 주요 메트릭을 모니터링하기 위해 자동으로 생성된 대시보드부터 개별 요청의 상세한 트레이스에 이르기까지 애플리케이션 성능에 대한 심층적인 인사이트를 제공한다. 애플리케이션에 대해 요청이 진행되면 Datadog는 분산화 시스템 전체에서 트레이스를 확인할 수 있다. 따라서 요청사항과 관련해 어떤 일이 일어나고 있는지 체계적인 데이터를 정확하게 표시할 수 있다.
즉 DataDog란 hybrid-cloud환경에서의 서버,컨테이너,애플리케이션,서비스 등에 대해 end-to-end 가시성을 제공하는 DevOps 환경을 위한 모니터링 및 분석 서비스이다.
역동적으로 실시간 변화하는 클라우드 인프라 환경에 적합
단순하고 직관적으로 사용 가능한 플랫폼
개발자,운영팀,비즈니스 유저간 기밀히 현업하기에 최적화된 플랫폼
고객사들의 복잡 다단한 요구조건들을 맞춰줄수 있는 플랫폼
모든 클라우드 방식과 연계가능한 유연한 플랫폼
통합 데이터 플랫폼

Cloudwatch가 기본으로 제공하고 있는 간단한 로그기반 모니터링 툴을 활용하고 있다.
Amazon CloudWatch란 AWS를 위한 다목적 모니터링 서비스이다.
이 도구는 Outposts의 구내에서 실행되는 AWS리소스 및 응용 프로그램의 통합보기를 제공한다.
만약 Cloudwatch에서 DataDog를 활용한 로그분석을 한다면
Cloudwatch는 AutoScaling이 필요하지 않은 경우, 기능이 부족하고 비용이 발생할수도 있으므로 학생계정으로 비용이 발생하지 않고 깔끔한 UI의 Datadog으로 변경하는 것이 나을수도 있다고 판단하였다.
기존의 CloudWatchAgent를 활용한 메모리 메트릭 수집/ 모니터링을 진행하였지만 DataDogAgent또한 메모리로그, 모니터링 및 알람등의 기능이 존재한다.(CloudWatchAgent에서 나가는 비용이 사라져, 비용절감의 효과를 가져올 수 있다.)
이전에는 AWS에서 백엔드인원들 위주로의 모니터링을 진행하였지만, 다른 트랙인원들도 서버를 모니터링 할 수 있다는 장점이 있다.
위와 같은 효과를 낼 수 있다고 생각한다.
New Relic이라는 다른 로그관리 툴도 존재하지만 비용문제로 Datadog를 선택하게 되었다.
깃허브에서 제공하는 학생팩을 사용하면 DataDog 프로계정을 2년간 무료로 사용할 수있다.
현재 장준영_BE의 계정으로 운용예정이다.


InfraStructure 배너에서 확인 가능하다.
Infrastructure에서는 Metrics, Process, Network등 다양한 지표를 확인할 수 있다.

CPU Usage, MemoryUsage등 다양한 Metrics를 보여준다.

Process별로 자원의 할당량을 확인할 수 있다.

TCP/IP등 Network의 성능을 확인 할 수 있다.

NetworkMap을 통해 인프라를 한눈에 확인 할 수 있다.
2.APM

APM 배너에서 확인 가능하다.

Catalina(Tomcat)에 들어오면 여러가지 정보를 확인할 수 있다.

API별로 요청량을 확인 가능하다

현 서비스의 취약점을 모니터링하고 ASM을 활용하여 취약부분을 고칠 수 있다.

Traces 별로 Latency등을 모니터링 할 수 있다.

Process별로도 확인이 가능하다.

Server안에서의 Process의 Map을 확인할 수 있다

API별로도 모니터링이 가능하다.

Error를 Tracking할 수 있다.
3.Log


위와 같이 로그를 모니터링 가능하다
4.UX
RUM은 현재 프론트에서 GA가 담당을 하고 있기 때문에 제외를 하였다.

외부에서 health check를 해준다.
5.Monitor & Security

위와 같이 위험 지표가 있을 경우 SlackNoti로 알람이 간다.
ASM

ASM을 활용하여 모니터링을 해준다.
Datadog을 통한 성능/비용 모니터링을 통해 좀더 고도화된 인프라를 구축할수 있기에 기쁘고 팀원들도 Datadog을 활용해 로깅 및 모니터링에 도움이 되었으면 좋겠다.!
현재는 도메인 health-check, 인스턴스 메트릭 모니터링을 통해 알람이 가 백엔드 인원들이 조금더 빠르게 대응할 수 있도록 인프라 변경을 한 상태이다!
참고자료
BCSD_Datadog 세미나
https://blog.naver.com/techtrip/222057047089
https://velog.io/@kameals/Datadog-log
apm설정
https://jane096.github.io/project/apm-monitoring/
https://medium.com/@pgulshetty/application-monitoring-and-alerting-using-datadog-f0f08c3f7696
로그설정
https://velog.io/@kameals/Datadog-log
기타
https://m.blog.naver.com/ki630808/221719907071
https://docs.datadoghq.com/ko/getting_started/application/
https://omoknooni.tistory.com/m/49
https://cumulus.tistory.com/22
이거보면서 좀 datadog 좀 파봐야겠네