[인프라 엔지니어의 교과서] 9장 인프라 운영

버버니야·2022년 3월 30일

31. 장애 대응

하드웨어는 언젠가 반드시 고장이 난다는 생각 때문에 가능한 서비스를 멈추지 않도록 하는 방향으로 진화했다.
예를들어, 서비스를 가동한 채로 이중화된 부품 중 고장난 부품을 교활할 수 있는 '핫스왑'기술이나 이상을 감지하면 자동으로 보정하는 'ECC기능'은 하드웨어의 가용성을 높여주는 예이다.

또한 소프트웨어는 사람이 만드는 것이므로 아무래도 버그가 있다. 인프라 엔지니어 입장에서는 명확히 시스템이 멈추는 등 눈에 보이는 시스템 장애는 알 수 있지만, 버그에 의한 사소한 오류는 알 수 없을 때가 많다.
결국 일반 사용자로부터 문의나 개발자 자신이 장치한 감시 시스템에 의해 오류를 발견하는 예가 대부분이다.

인프라 엔지니어에게 감시 솔루션은 장애 감지를 위해 특히 중요한 도구이다.
장애를 빠르고 확실하게 감지하기 위해서는 감시 솔루션 없이는 불가능하다.
감시 솔루션을 신중하게 선택하고 모든 보유 기기에서 일어날 수 있는 온갖 장애 패턴을 모두 확실히 감지할 수 있도록 엄격하게 설정하자.

32. 병목을 해결한다

일반적으로 IT 시스템에서는 병목이 한 군데만 있어도 시스템 전체의 응답에 악영향을 미친다.
시스템 병목을 제거하는 과정에서 중요한 것은 국소적인 문제에 사로잡히지 않고 시스템 전체 관점에서 병목을 검토하는 것이다.

부분적으로 문제를 해결했다하더라도 다른 곳에서 병목이 일어나는 부분이 있으면 시스템 전체의 응답은 개선되지 않는다.

특히 접속이 급증하는 IT 시스템일 때는 병목 대책을 계획적으로 세울 필요가 있다.
아무런 대응을 하지 않으면, 거의 모든 하드웨어 자원이 동시에 고갈되는 상황이 있다.
일단 그런 상황이 되면 땜질식 대응은 거의 불가능하고, 오랫동안 시스템을 멈추고 전체적으로 시스템을 확장한 다음 서비스를 재개해야 한다. 그렇게 되지 않기 위해서도 앞으로 접속 수가 급증할 것 같다고 판단되면 시스템 확장 계획을 세우면서, 병목 해서 작업을 병행해야 한다.

병목이 발생하는 부분

코어 스위치의 수용량
L2 스위치의 수용량
웹 서버의 메모리 부족
데이터베이스 서버의 CPU와 메모리 부족
데이터베이스 서버의 디스크 I/O

네트워크 장비의 병목을 해결한다.

각 포트의 물리 인터페이스 속도가 트래픽을 감당하는가?

조사 방법
1Gbps 인터페이스라면 실제 IN/OUT 트래픽이 각각 1Gbps 미만인가?
대책
서버를 분산해 트래픽을 분산하거나 인터페이스르 더 빠른 것으로 바꾼다.

네트워크 장비의 전송 능력에는 한계가 없는가?

조사 방법
패킷 드롭이 발생하지 않는가? 전송 능력 부족은 보이는 로그가 남아 있는가?
대책
가능하면 네트워크 장비를 상위 기종으로 교체하거나 캐시 메모리 추가 등을 시행

서버 장비의 병목을 해결한다.

프론트 엔드 서버의 응답이 저하되었는가?

조사 방법
각 서버의 응답 시간을 정기적으로 가져와 극단적인 저하가 일어났는지 살펴본다. 혹은 사용자로부터 응답 속도에 관한 질문이 들어왔는지
대책
프론트 엔드 서버 문제인지 아니면 데이터베이스 등의 백 엔드 문제인지 파악.
백 엔드 서버에서 CPU, 메모리, 네트워크, 디스크 I/O의 실시간 이용 상황을 보고, 어느 하드웨어 자원이 과도하게 사용되면 백 엔드 서버 문제로 의심한다. 그렇지 않으면 프론트 엔드 서버 문제를 의심해, 마찬가지로 CPU, 메모리, 네트워크, 디스크 I/O의 실시간 이용 상황을 보고 어느 하드웨어가 과도하게 사용되면 프론트를 의심.

하드웨어 리소스를 많이 사용하는 서버를 파악하면 다음은 원인을 분석한다. 하드웨어 리소스가 정말 부족한 것인지, 애플리케이션이 문제인지, 그렇지 않으면 하드웨어 고장인지 판단한다.

33. MSP

MSP란 IT 인프라의 운영 관리륻 대행해주는 업자를 말한다.

MSP 업자 선택 방법

기업의 신뢰성

중요한 서버를 위탁할 때, 신뢰할 수 없는 기업을 선택하는 것은 사업적으로 위험.

커뮤니케이션 능력

인프라 운영 관리를 자사에서 할 수 없을 때, MSP 업자에겐 인프라 운영의 모든 것을 위임하게 된다. 하지만 MSP업자의 엔지니어와 커뮤니케이션이 원활하지 ㅇ낳으면 자사의 인프라를 적절히 관리하는지 불안해진다.

유연성

요구사항을 전달하고 유연하게 제안해주는지 확인한다.

기술력

IT 기술을 전문으로 다루는 업자이므로 기술력이 부족한 업자 선정은 위험하다.

비용대비 효과

비교 견적을 받아 각 업자의 견적에서 가격차가 어디에서 나는지 확인

34. 펌웨어

펌웨어ㄴ느 하드웨어를 제어하는 프로그램을 말하며, 부품의 품질과 같을 정도로 펌웨어의 품질이 하드웨어의 성능이나 안정성을 크게 좌우한다.

펌웨어의 부품과 수준

하드웨어를 구매하면 제조 시점에서 가장 새로운 버전이 적용된 제품이 납품된다.
그 후, 하드웨어를 사용하다보면 점차 새로운 펌웨어가 발표된다.
최신 펌웨어가 발표되면 보통 권장, 필요, 필수라고 하는 펌웨어 수준도 병기된다.
인프라 엔지니어는 이 펌웨어 수준을 참고하면서 적당한 때에 최신 버전으로 업그레이드 한다.

펌웨어의 버전 업그레이드 여부를 판단한다.

항상 최신 펌웨어를 적용해야 안심이라고 생각하는 인프라 엔지니어가 있는가하면, 매일 안정적으로 동작하는 하드웨어라면 그렇게 중요한 버그 수정이 포함되지 않는 한 가능하면 업그레이드하지 않아야 한다고 생각하는 사람도 있다.

펌웨어의 버전 업그레이드 방법

가동 중인 운영체제에서 업데이트 파일을 실행해서 적용하는 방법 (재부팅 불필요)
가동 중인 운영체제에서 업데이트 파일을 실행해서 적용하는 방법 (재부팅 필요)
시스템 정지 후, USB 메모리나 DVD-ROM등을 사용해 적용하는 방법

펌웨어의 버전을 업그레이드할 때는 정기 점검등의 시간을 이용해서 효율적으로 시행할 필요가 있다.

버버니야

안녕하세요

이전 포스트

[인프라 엔지니어의 교과서] 8장 솔루션과보안

다음 포스트