시스템 장애 대응 접근법

anonymous·2022년 1월 20일

장애 조치

  1. 장애 재현 발생 원인과 위치, 시간 파악 - 로그 확인
  2. 장애 복구 후 서비스 정상화
  3. 근본적인 원인 파악과 재발 방지 대책 수립을 위해서 장애 리뷰 진행.
  4. 장애 발생 시각, 탐지 시각, 종료 시각, 장애 탐지 방법, 장애 발생 지점, 장애 복구 방법, 대응 과정 중의 시간별 action, 장애 원인, 재발 방지 대책 파악
  5. 장애 원인 분석과 재발 방지 대책 수립을 우선으로 파악하여 개선.

장애 원인 분석 방법

5 WHY 기법 사용

  • 도요타의 Taiichi Ohno가 체계적인 문제 해결을 위해 개발한 도구
  • 어떠한 문제 상황에 대해 그러한 상황이 발생하게 된 원인을 ‘왜 그러한 상황이 발생하였는가?’ 라는 질문을 여러 번 반복해나가면 문제의 근본 원인에 도달할 수 있다는 방법론.

사용 예제

  • 미국 제퍼슨 독립 기념관의 기둥 대리석이 지속적으로 부식되어 해마다 많은 보수비용이 발생하고 기념관의 이미지가 훼손되는 문제가 있었는데, 5whys를 통해서 해결한 이 사례를 예로 들어보겠습니다. .

WHY 1. 왜 대리석들이 그렇게 빨리 부식되는가?

  • 비누 청소를 자주하기 때문이다.

WHY 2. 왜 비누 청소를 자주하는가?

  • 비둘기 배설물이 많이 묻기 때문이다.

WHY 3. 왜 비둘기 배설물이 많은가?

  • 비둘기의 먹잇감인 거미가 많이 있기 때문이다.

WHY 4. 왜 거미가 많은가?

  • 거미의 먹잇감인 불나방이 많이 있기 때문이다.

WHY 5. 왜 불나방이 많은가?

  • 실내 전등을 주변보다 일찍 켜기 때문이다.

5 WHY 를 통해 도출된 root cause를 해결하기 위해서 제퍼슨 독립 기념관은 주변 건물보다 2시간 늦게 조명을 밝히는 것으로 문제를 해결했습니다. 5는 상징적인 숫자고 더 많거나 적은 횟수로 해결할 수 있습니다

세 가지 관점

  1. 장애에 영향을 받은 고객의 관점에서 시작
  2. 검증이 가능한, 혹은 검증된 사실에 기반해서 답변. 고객이 장애를 만든 행동은 본인도 햇갈리거나 잘못 파악했을 수 있어서 개발자가 직접 재현해 보고 매칭시켜야함.
  3. 실수를 방지할 수 있도록 시스템이 막아줄 수 있는 개선점을 만들자.

REF

https://techblog.woowahan.com/4886/

profile
기술블로거입니다

0개의 댓글