
NVIDIA Data Center GPU Manager(DCGM)는 대규모 GPU 서버 환경을 위한 오픈소스 관리 도구로, NVIDIA가 데이터 센터 내 GPU 상태와 성능을 효율적으로 모니터링하고 관리할 수 있도록 설계한 소프트웨어이다.

Docker 기반의 redis-exporter를 실행하고 prometheus와 grafana로 Redis 서버의 상태를 모니터링 한다.

django-prometheus를 사용해 Django 서버 모니터링한다.

node-exporter를 사용해서 호스트의 시스템 리소스를 모니터링 한다.