Trouble shooting

송수용·2022년 5월 12일
0

getSomething()

목록 보기
5/14

트러블 슈팅이란?

트러블 슈팅이란 무언가 문제가 발생했을 때 그 원인을 찾아 제거하는 것을 의미

트러블 슈팅 그 자체는 폭넓은 분야에서 사용되는 문제 해결 수법이지만, 주로 기계 장치나 소프트웨어에 있어 문제 해결을 지칭하는 경우가 많습니다.

트러블 슈팅이 필요한 이유
시스템과 프로그램의 결함과 이상은 언제나 발생할 수 있는 것입니다. 그 상태나 원인도 다양하여 때때로 심각한 상황에 빠지는 일도 있는 한편, 단순한 원인으로 이상이 발생한 케이스도 다수 있습니다.

트러블 슈팅의 기본적인 개념
트러블 슈팅은 「가장 단순하고 빈도 높은 원인에서 가능성을 지워가는 것」과 같은 제거법의 개념을 기본으로 하고 있습니다. 때문에, 「PC가 멈췄다」와 같은 트러블에 대해서는 「전원은 켜져있는가」 「전원 플러그는 콘센트에 꽂혀있는가」와 같은 것부터 확인해갑니다.

가장 간단하게는 발생 가능성이 큰 곳부터 확인하여 현재 상태를 하나씩 진단하고 파악해 나가는 겁니다. 이렇게 한 걸음씩 단계를 밟아 트러블 원인을 찾습니다.

트러블 슈팅 방법

계속해서 트러블 슈팅 방법에 대해 구체적으로 소개하겠습니다. 현장에서의 대처는 일부 차이가 있지만 기본적인 흐름은 동일합니다.

    1. 상황을 파악하기
      우선, 문제가 되는 상황을 파악하는 것이 트러블 슈팅의 첫 번째 단계입니다. 「어디서」 「무엇이」 「어떻게 되었는가」를 기본으로 파악합니다. 나타난 문제가 한 개라고 할 수 없습니다. 문제가 발생한 시점부터 문제의 범위와 현상을 하나씩 확인합니다.
    1. 문제 발생 출처 밝히기
      다음으로, 어디서 문제가 발생했는지 출처를 찾습니다. 이것은 수고스러운 작업이지만 트러블 슈팅에서 가장 중요한 일입니다. 이 단계에서 다음 소개하는 3가지 룰이 도움이 됩니다.

2 - 1. 하나씩 하나씩 결과를 확인하기

어떤 장소에서 문제가 발생하고 있는지 하나 하나씩 체크하여 결과를 확인합니다. 한 번에 정리해 체크하면 문제가 되는 출처를 놓칠 위험이 있기 때문입니다. 이것은 원인을 특정할 때 필요한 중요한 룰입니다.

2 - 2. 가까운 곳에서 먼 곳으로 확인하기

예를 들면, 어떤 단말기가 네트워크가 연결되지 않는다는 문제가 발생했을 때 그 단말기 자체에 문제가 있다고 단정하기는 어렵습니다. 그때에는 우선 이상이 보이는 단말기를 체크하고, 그 다음 허브까지, 다음에 라우터까지와 같이 가까운 곳에서 먼 곳을 향해 확인해갑니다.

2 - 3. 아래에서 위로 체크해가기

아래에서 위라는 것은 기능상의 계층 구조에 주목한 체크 방법입니다. 특정 PC에 이상이 발생했을 때 우선은 베이스가 되는 하드웨어에 문제는 없는지, OS는 정상적으로 기능하고 있는지, 어플리케이션은 어떤 상태인지와 같이 베이스가 되는 부분에서 상위 계층으로 체크해 나가는 것입니다.

    1. 발생 조건을 파악하기
      트러블에 있어 특정 조건하에 발생하는 경우도 있습니다. 그것을 기록해 두어 원인을 정확히 특정할 수 있는 경우가 많습니다.

적절한 트러블 슈팅을 실현하기 위해서는?

트러블 슈팅이 적절하게 이루어진다면 무언가 이상이 발생하더라도 원인 특정이 원활하게 가능하여 초기에 해결할 수 있습니다. 그러나, 실제로 운용 측면에서 트러블 슈팅에는 몇 가지 과제가 있어 생각처럼 운용이 되지 않는 경우도 있을 것입니다.

마지막으로, 트러블 슈팅을 보다 적절하게 하기 위한 포인트를 소개하겠습니다.

우선순위에 따라 어떤 대응을 할까
시스템 전체를 수시로 감시하는 IT 부서 스텝이라면 가령 우선순위가 낮은 트러블이라도 문제가 발생하면 바로 대처하지 않으면 안되기 때문에 우선순위를 매기는 것 자체가 쓸데없는 작업이 될 수도 있을 것입니다.

사소한 것이라도 큰 트러블 원인이 될 수도 있다는 견해도 있지만, 우선도가 매우 낮은 알림에 대해 어떻게 처리하면 좋을지 미리 검토해두는 것도 좋을 것입니다.

대처 프로세스를 체계화하기
발생할 수 있는 트러블에 어떻게 대처할 수 있을까요? 미숙한 사용자라도 가능하게 하는 것이 트러블 슈팅입니다. 그리고 전문성이 필요한 트러블에 대해서는 IT 부서가 대처합니다.

그러나, IT 부서에서도 엔지니어마다 스킬 차이가 있기 때문에 어려운 트러블은 스킬 높은 스텝에 업무를 집중시킬 가능성이 있습니다.

이러한 상황을 피하기 위해 트러블 대응 업무를 체계화하여 매뉴얼로 표준화해두는 것이 중요합니다. 그렇게 하면 누구라도 동일한 대응이 가능하여 원활하게 해결・복구할 수 있게 됩니다.

IT 툴과 서비스 활용하기
트러블 슈팅을 위한 전용 툴을 준비해두는 것도 좋습니다.

사내 시스템과 네트워크를 감시하고 트러블이 발생했을 때 원인규명을 서포트하는 보존 툴은 시장에 다수 등장하고 있습니다. 또한, OS에 표준으로 내장되어 있는 트러블 슈팅 툴도 있습니다.

또한, 각종 IT 툴과 클라우드 서비스에서는 벤더의 자사 사이트 내에 트러블 슈팅을 콘텐츠로 갖추고 있습니다. 그 중에서는 매우 넓은 범위의 내용도 있고, 사용자 커뮤니티에서 트러블과 그 해결방법에 대해 활발한 보고가 이루어지는 예도 있습니다.

이러한 툴과 사이트를 활용하면 유사시 큰 도움이 될 것입니다.

자주 있는 발생 조건으로 들 수 있는 것이, 시간대 외에 문제가 발생했을 때 실행한 시스템과 어플리케이션, 특정 작업・동작 등입니다. 어떤 조건이 모이면 반드시 이상이 발생한다와 같은 재현성 유무도 원인 규명에 큰 역할을 할 수 있습니다.

  1. 원인을 상정하여 검증하기
    생각할 수 있는 요소를 하나 하나씩 확인하여 트러블 원인을 상정합니다. 더불어 대책을 세우고 복구가 가능한지 검증해봅시다. 여기에서도 「하나씩 결과를 확인하기」가 매우 중요합니다. 몇 가지 대책을 한 번에 실시하는 것이 빠를 수도 있지만 정확한 원인을 특정할 수 없습니다. 조금 돌아가더라도 한 개의 대책을 시험해볼 때 동작을 확인하여 원인을 특정해야 합니다.
profile
#공부중 #협업 #소통중시 #백엔드개발자 #능동적 #워커홀릭 #스파르타코딩 #항해99 #미니튜터 #Nudge #ENTJ #브레인스토밍 #아이디어뱅크

0개의 댓글