[교재] 인프라 엔지니어의 교과서 9장 - 인프라 운영
9장 인프라 운영
장애 대응
- 하드웨어
- 핫 스왑: 서비스를 가동한 채로 이중화된 부품 중 고장난 부품 교환
- ECC 기능: 이상을 감지하면 자동으로 보정하여 하드웨어의 가용성을 높임
- 소프트웨어
- 테스트하지 못한 조작이나 악의적 접근으로 시스템 이상 발생 가능
- 일반 사용자로부터의 문의나 개발자가 장치한 감시 시스템에 의해 오류를 발견하는 것이 대부분
- 감시 솔루션은 매우 중요하므로 엄격하게 설정 필요
병목 해결
- IT 시스템에서는 병목이 한군데에만 있어도 시스템 전체의 응답 속도에 악영향을 미침
- 국소적인 문제에 사로잡히지 말고 시스템 전체의 관점에서 명목 검토 필요
- 접속이 급증하는 IT 시스템은 병목 대책을 계획적으로 세워야 함
- 대응을 하지 않으면 거의 모든 하드웨어 자원이 동시에 고갈될 수 있음
- 단계적으로 시스템 확장 계획을 세우며 계속 병목 해소 작업을 병행해야 함
병목이 흔히 발생하는 부분
- 코어 스위치의 수용량
- L2 스위치의 수용량
- 웹 서버의 메모리 부족
- 데이터베이스 서버의 CPU와 메모리 부족
- 데이터베이스 서버의 디스크 I/O
네트워크 장비의 병목
- 각 포트의 물리 인터페이스의 속도가 트래픽을 감당하는가?
- 조사 방법: 1 Gbps 인터페이스라면 실제 IN/OUT 트래픽이 각각 1 Gbps 미만인가?
- 대책: 서버를 분산하여 트래픽을 분산하거나 인터페이스를 더 빠른 것으로 바꾸기
- 네트워크 장비의 전송 능력에 한계는 없는가?
- 조사 방법: 패킷 드롭이 발생하지 않는가? 전송 능력 부족을 보이는 로그가 남아있는가?
- 대책: 네트워크 장비를 상위 기종으로 교체, 캐시 메모리 추가 등
서버 장비의 병목
- 프론트엔드 서버의 응답이 저하되었는가?
- 조사 방법
- 각 서버의 응답을 정기적으로 가져와 극단적인 저하가 일어났는지 살피기
- 사용자로부터 응답 속도에 관한 질문이 들어왔는지 살피기
- 대책: 프론트엔드 서버 문제인지 데이터베이스 등 백엔드 서버 문제인지 파악
- 각 서버의 하드웨어 자원의 실시간 이용 현황을 보고 과도하게 사용되는 자원이 있는지 확인
- 하드웨어 리소스가 부족한 것인지, 애플리케이션의 문제인지, 하드웨어 고장인지 판단
MSP
- Managed Service Provider. IT 인프라 운영 관리 대행 업자
- 기업의 신뢰성, 커뮤니케이션 능력, 유연성, 기술력, 비용 대비 효과를 고려하여 선택
펌웨어
- 하드웨어를 제어하는 프로그램
- 펌웨어의 품질이 하드웨어의 성능이나 안정성을 크게 좌우함
- 서버 본체(BIOS), RAID 보드/HBA 보드, 하드디스크/SSD, 네트워크 기기 본체, 스토리지 본체 등에 사용
- 펌웨어 수준을 참고하여 적당한 때에 최신 펌웨어로 업그레이드 여부를 판단
- 판단이 어렵다면 필수 수준의 펌웨어는 반드시 적용하고 필요 수준의 펌웨어는 업데이트 내용을 보고 적절히 판단하여 운영
- 버전 업그레이드 방법
- 가동 중인 OS에서 업데이트 파일을 실행하여 적용 (재부팅 불필요)
- 가동 중인 OS에서 업데이트 파일을 실행하여 적용 (재부팅 필요)
- 시스템 정지 후, USB 메모리나 DVD-ROM 등을 사용해 적용
하드웨어의 사후 지원
- 하드웨어 구매 시 지원 기간이 매우 중요
- 주로 지원 기간이 지나도 5년까지는 지원 연장에 응해주지만, 5년이 넘어가면 지원 연장을 거절
- 지원 기한 종료가 가까워질수록 새로운 서버로 교체할 지, 다른 서버로 통합할 지 결정
- 이용 빈도가 높지 않는 서버나 시스템이라면 시스템 폐지를 선택하기도 함