Trouble Shooting 다루기

송현아·2021년 9월 6일
0
post-thumbnail

서버를 개발, 운영하면서 문제가 발생할 때마다 허둥지둥 무작정 에러 메시지를 구글링하던 나 😝

문제를 체계적으로 해결하는 방법을 찾아보게 되어 정리하였습니다.

참고 블로그 : https://nesoy.github.io/articles/2018-12/Trouble-Shooting

Trouble Shooting ? 👀

시스템이나 장치 등에서 발생한 장애(문제)에 대한 원인을 규명하고 해결하는 작업

  • 트러블 슈팅 과정
    • 문제 정의
    • 사실 정리
    • 원인 추론
    • 조치 및 방안 검토
    • 해결 과정

문제 해결이 되면 해당 프로세스 사이클은 끝나지만, 문제가 해결되지 않으면 원인 추론 단계 부터 다시 반복합니다.

1. 문제 정의

시스템에서 발생하는 현상을 파악하고 문제를 명확히 표현, 규정하는 단계

문제를 단계적으로 파악하는 방법 👨🏻‍🔧

  • 사용자 현상 파악
    • 5XX ERROR

      500번대 에러 응답은 서버 오류에 관련한 코드이다.

      • 500 : 내부 서버 오류
      • 503 : 서버가 멈춤
    • 무응답 / 느린 응답

    • 예상과 다른 Application 동작

  • 서버 상태 파악
    • Application Server
      • CPU / Memory 사용률
      • Memory 사용률
      • Network : Inbound / Outbound
    • 연계 서버(DB 서버, Cache 서버)
      • CPU / Memory 사용률
      • Memory 사용률
      • Network : Inbound / Outbound
  • Application의 정보 파악
    • Application Server Log
      • OOM(Out of Memory)등 전형적인 Fatal 여러 발생 여부
      • 자주 발생하는 에러 스택
    • 연계 Server Log

2. 사실 정리

정의된 문제에 대해 대략의 점검 항목과 내용을 결정하고, 자료를 수집하는 단계

3. 원인 추론

수집된 자료를 바탕으로 문제의 원인을 추론하는 단계

4, 조치 및 방안 검토

추론된 원인에 따른 조치 방안을 마련

5. 해결과정

조치방안에 따른 구현 단계를 거쳐 문제를 해결

0개의 댓글