하드웨어는 언젠가 반드시 고장이 난다는 생각 때문에 가능한 서비스를 멈추지 않도록 하는 방향으로 진화했다.
예를들어, 서비스를 가동한 채로 이중화된 부품 중 고장난 부품을 교활할 수 있는 '핫스왑'기술이나 이상을 감지하면 자동으로 보정하는 'ECC기능'은 하드웨어의 가용성을 높여주는 예이다.
또한 소프트웨어는 사람이 만드는 것이므로 아무래도 버그가 있다. 인프라 엔지니어 입장에서는 명확히 시스템이 멈추는 등 눈에 보이는 시스템 장애는 알 수 있지만, 버그에 의한 사소한 오류는 알 수 없을 때가 많다.
결국 일반 사용자로부터 문의나 개발자 자신이 장치한 감시 시스템에 의해 오류를 발견하는 예가 대부분이다.
인프라 엔지니어에게 감시 솔루션은 장애 감지를 위해 특히 중요한 도구이다.
장애를 빠르고 확실하게 감지하기 위해서는 감시 솔루션 없이는 불가능하다.
감시 솔루션을 신중하게 선택하고 모든 보유 기기에서 일어날 수 있는 온갖 장애 패턴을 모두 확실히 감지할 수 있도록 엄격하게 설정하자.
일반적으로 IT 시스템에서는 병목이 한 군데만 있어도 시스템 전체의 응답에 악영향을 미친다.
시스템 병목을 제거하는 과정에서 중요한 것은 국소적인 문제에 사로잡히지 않고 시스템 전체 관점에서 병목을 검토하는 것이다.
부분적으로 문제를 해결했다하더라도 다른 곳에서 병목이 일어나는 부분이 있으면 시스템 전체의 응답은 개선되지 않는다.
특히 접속이 급증하는 IT 시스템일 때는 병목 대책을 계획적으로 세울 필요가 있다.
아무런 대응을 하지 않으면, 거의 모든 하드웨어 자원이 동시에 고갈되는 상황이 있다.
일단 그런 상황이 되면 땜질식 대응은 거의 불가능하고, 오랫동안 시스템을 멈추고 전체적으로 시스템을 확장한 다음 서비스를 재개해야 한다. 그렇게 되지 않기 위해서도 앞으로 접속 수가 급증할 것 같다고 판단되면 시스템 확장 계획을 세우면서, 병목 해서 작업을 병행해야 한다.
병목이 발생하는 부분
하드웨어 리소스를 많이 사용하는 서버를 파악하면 다음은 원인을 분석한다. 하드웨어 리소스가 정말 부족한 것인지, 애플리케이션이 문제인지, 그렇지 않으면 하드웨어 고장인지 판단한다.
MSP란 IT 인프라의 운영 관리륻 대행해주는 업자를 말한다.
중요한 서버를 위탁할 때, 신뢰할 수 없는 기업을 선택하는 것은 사업적으로 위험.
인프라 운영 관리를 자사에서 할 수 없을 때, MSP 업자에겐 인프라 운영의 모든 것을 위임하게 된다. 하지만 MSP업자의 엔지니어와 커뮤니케이션이 원활하지 ㅇ낳으면 자사의 인프라를 적절히 관리하는지 불안해진다.
요구사항을 전달하고 유연하게 제안해주는지 확인한다.
IT 기술을 전문으로 다루는 업자이므로 기술력이 부족한 업자 선정은 위험하다.
비교 견적을 받아 각 업자의 견적에서 가격차가 어디에서 나는지 확인
펌웨어ㄴ느 하드웨어를 제어하는 프로그램을 말하며, 부품의 품질과 같을 정도로 펌웨어의 품질이 하드웨어의 성능이나 안정성을 크게 좌우한다.
하드웨어를 구매하면 제조 시점에서 가장 새로운 버전이 적용된 제품이 납품된다.
그 후, 하드웨어를 사용하다보면 점차 새로운 펌웨어가 발표된다.
최신 펌웨어가 발표되면 보통 권장, 필요, 필수라고 하는 펌웨어 수준도 병기된다.
인프라 엔지니어는 이 펌웨어 수준을 참고하면서 적당한 때에 최신 버전으로 업그레이드 한다.
항상 최신 펌웨어를 적용해야 안심이라고 생각하는 인프라 엔지니어가 있는가하면, 매일 안정적으로 동작하는 하드웨어라면 그렇게 중요한 버그 수정이 포함되지 않는 한 가능하면 업그레이드하지 않아야 한다고 생각하는 사람도 있다.
펌웨어의 버전을 업그레이드할 때는 정기 점검등의 시간을 이용해서 효율적으로 시행할 필요가 있다.