
장애 조치
- 장애 재현 발생 원인과 위치, 시간 파악 - 로그 확인
- 장애 복구 후 서비스 정상화
- 근본적인 원인 파악과 재발 방지 대책 수립을 위해서 장애 리뷰 진행.
- 장애 발생 시각, 탐지 시각, 종료 시각, 장애 탐지 방법, 장애 발생 지점, 장애 복구 방법, 대응 과정 중의 시간별 action, 장애 원인, 재발 방지 대책 파악
- 장애 원인 분석과 재발 방지 대책 수립을 우선으로 파악하여 개선.
장애 원인 분석 방법
5 WHY 기법 사용
- 도요타의 Taiichi Ohno가 체계적인 문제 해결을 위해 개발한 도구
- 어떠한 문제 상황에 대해 그러한 상황이 발생하게 된 원인을 ‘왜 그러한 상황이 발생하였는가?’ 라는 질문을 여러 번 반복해나가면 문제의 근본 원인에 도달할 수 있다는 방법론.
사용 예제
- 미국 제퍼슨 독립 기념관의 기둥 대리석이 지속적으로 부식되어 해마다 많은 보수비용이 발생하고 기념관의 이미지가 훼손되는 문제가 있었는데, 5whys를 통해서 해결한 이 사례를 예로 들어보겠습니다. .
WHY 1. 왜 대리석들이 그렇게 빨리 부식되는가?
WHY 2. 왜 비누 청소를 자주하는가?
WHY 3. 왜 비둘기 배설물이 많은가?
- 비둘기의 먹잇감인 거미가 많이 있기 때문이다.
WHY 4. 왜 거미가 많은가?
- 거미의 먹잇감인 불나방이 많이 있기 때문이다.
WHY 5. 왜 불나방이 많은가?
5 WHY 를 통해 도출된 root cause를 해결하기 위해서 제퍼슨 독립 기념관은 주변 건물보다 2시간 늦게 조명을 밝히는 것으로 문제를 해결했습니다. 5는 상징적인 숫자고 더 많거나 적은 횟수로 해결할 수 있습니다
세 가지 관점
- 장애에 영향을 받은 고객의 관점에서 시작
- 검증이 가능한, 혹은 검증된 사실에 기반해서 답변. 고객이 장애를 만든 행동은 본인도 햇갈리거나 잘못 파악했을 수 있어서 개발자가 직접 재현해 보고 매칭시켜야함.
- 실수를 방지할 수 있도록 시스템이 막아줄 수 있는 개선점을 만들자.
REF
https://techblog.woowahan.com/4886/