
운영중인 서비스에서는 항상 예상하지 못한 여러가지 문제 상황들이 발생한다.
서버, 데이터베이스와 같은 물리적인 시스템, 혹은 WAS, JVM 와 같은 가상화 레벨에서의 CPU, Memory 등 자원의 병목, 스레드간의 데드락 혹은 스레드 풀 과부화로 인한 요청 처리 실패나 지연시간 증가, Memory Leak 등으로 인한 OOM, 네트워크 대역폭 제한 초과 등..
이런 문제들을 식별하고 분석하기 위해 Amazon CloudWatch, APM 의 Metric, Indicator 를 자주 참고하는데, 문제의 원인과 현상을 혼동하지 않기 위해서는 Metric 수치가 어떻게 도출되었는지, 저수준에서 발생하는 일련의 과정들을 이해하고 있어야 한다고 생각한다.
그런 맥락에서 이 책이 도움이 되고, 책을 통해 다음 지식들을 얻을 수 있다.