[교재] 인프라 엔지니어의 교과서 10장 - 대규모 인프라
10장 대규모 인프라
대규모 인프라 관리
- 대규모 인프라 관리 시 시뮬레이션에 바탕을 둔 면밀한 사전 준비와 관리체제 구축 필요
- 인적 자원, 데이터센터 공간, 서버, 네트워크 장비, 네트워크 대역 등 온갖 자원이 동시에 부족해지는 가운데 우선순위를 매겨가며 잇달아 대책을 세워야 함
- 전체를 통합해 바라보며 체계를 세우고 관리하는 운영 방법 사용
- 기술적 대응도 중요하지만 각종 기획이나 구매 상담, 오퍼레이터에 대한 지시 작업 또한 매우 중요
시스템 구성 결정 요소
- 업체 지원의 필요성
- 업체의 지원이 필요한 경우 유지 보수 서비스가 있는 것을 이용하여 구성
- ex) 오픈소스인 CentOS로 웹 서버 구축, 윈도우나 레드햇 엔터프라이즈 리눅스 + 오라클로 데이터베이스 서버 구축
- 사용 언어
- 액세스 양
- 예상되는 부하를 산정하여 하드웨어 자원을 충분히 확보하고 적절히 부하를 분산
- 가용성
- 가용성을 높이기 위해 스케일 아웃 구성으로 저렴한 서버를 여러 대 준비하여 중복 구성
- 스케일 업 구성 시 비싸도 잘 고장이 나지 않는 엔터프라이즈 서버 등을 이용
- 외부 업자 이용
- 사원 수가 적다면 외부 업자를 적극 이용
- 납품 기기의 포장을 뜯고 랙에 마운트, 배선, 기기 셋업, 장애 대응 지원(OS와 미들웨어 등의 프리미엄 지원 계약), 서버 룸 청소, 인프라 운영 시스템 개발, 하드웨어 고장 시 자동 대응
CDN
- Contents Delivery Network
- 서비스 제공 회사의 서버를 대신해 CDN 업체가 제공하는 캐시 서버에 접속하여 정적 콘텐츠를 받아가는 구조의 콘텐츠 전송망
- 대규모 사이트에서 이미지나 실행 파일 같은 정적 콘텐츠 배포에 사용
- 자신의 단말에서 가장 가까운 캐시 서버에 접속하여 빠르게 콘텐츠를 가져올 수 있음
- 자사에서는 아무리 접속이 증가해도 원서버 대수와 네트워크 대역을 늘리지 않아도 됨
선택 시 고려사항
- 품질
- 서비스 대상 국가
- 비용
- CDN 사용 시 예상되는 통신량과 사용하지 않을 때의 인프라 투자/운영 비용을 비교
- CDN은 대부분 통신량이 늘면 단가가 저렴해짐
DSR 구성을 이용한 부하 분산
- DSR 구성
- Direct Server Return
- L4 스위치(로드밸런서)에서 이용되는 부하 분산 기법의 하나
- 네트워크 트래픽이 대량으로 발생하는 대규모 웹 사이트 등에서 많이 채택
- 일반 구성과의 차이
- 일반 구성 시 스위치와 서버 사이에 L4 스위치를 둠
- 들어오는 패킷과 나가는 패킷 모두 L4 스위치를 통함
- DSR 구성 시 상위 스위치 등에 직접 L4 스위치를 연결
- 들어오는 패킷은 L4 스위치를 통과하지만 나가는 패킷은 L4 스위치를 거치지 않음
- 장점
- 요청에 대한 L4 스위치의 수용력 증가
- 웹 서버에서는 주로 아웃바운트 트래픽이 인바운드 트래픽의 몇 배에서 몇십 배
- DSR 구성 시 L4 스위치의 인바운드 양과 아웃바운드 양이 거의 동일해짐
- 네트워크 구성이 비교적 자유로움
- 아무 스위치에 L4 스위치를 연결해도 부하 분산 가능
- 네트워크 토폴로지가 단순해짐, 고장 시 처리 쉬움
- 한 포트만 사용
- 포트가 많은 L4 스위치는 매우 고가이지만, DSR 구성 시 상위 스위치 하나에만 포트 하나 사용
- 단점
- 일반 구성에서 부하 분산 설정 시 L4 스위치의 설정만 변경하면 됨
- DSR 구성에서는 L4 스위치에 DSR 설정 후, 부하 분산을 하는 모든 서버에 루프백 가상 네트워크 인터페이스 설정 필요
- 루프백에 부하 분산용 IP 주소인 VIP(Virtual IP) 기술 필요
리소스 부족 대책
- 인적 리소스 부족
- 인프라 전체를 관리하는 코어 멤버와 실제 작업을 수행하는 오퍼레이터
- 데이터센터 스페이스 부족
- 데이터센터의 자체 수용 가능량을 넘겼다면 다른 데이터센터를 추가 계약하거나 모든 서버를 새로운 데이터센터로 이전하는 것을 검토 필요
- 새로운 데이터센터 계약 시 보통 몇 개월이 걸림
- 확보 이후에도 서버 이전, 오퍼레이터 재배치, 시스템 분리 등에 상당한 부하 발생
- 장비 부족
- 대규모 사이트에서는 대량 발주를 주로 하므로 업체 측과 생산 조절 필요
- 해외에서 들여오는 경우 국가 정세에 의해 납품이 지연되기도 함
- 네트워크 대역 부족
- 업링크가 1Gbps를 넘어가면 코어 라우터(혹은 코어 L3 스위치)의 업링크도 동일하게 늘려야 함
- 라우터가 Trunking 불가능하거나 10Gbps를 지원하지 않는다면 상위 회선 교체 필요
- 상위 회선 교체도 불가능하다면 데이터센터 자체를 변경하여야 함
- 자금 부족
- 중고 시장에서 좋은 품질의 장비를 싼 값에 구하기
- 하드웨어, 소프트웨어를 튜닝하여 IT 인프라를 연명
- 평소 안면 있는 기업에 도움 청하기
- 경영진에게 증자 요청
급성장한 LINE의 서버 증강
- 인터넷 서비스는 인기에 불이 붙으면 트래픽이 급증하는 성질이 있음
- 주저 없이 강하게 인프라 증강 계획을 세우고 한 발 앞서 인프라를 증강하면 서비스의 성장세를 멈추지 않을 수 있음
역할 분담
- 지금을 보는 역할
- 지금 발생하는 모든 문제를 차례로 처리
- 서버가 부족하면 추가, 장애 발생 시 해결, 개발 부서에서 요청이 오면 상담
- 1개월 후를 보는 역할
- 다음에 일어날 리소스 부족이나 장애의 씨앗을 찾아내 없애는 역할
- 서버, 네트워크, 데이터센터의 온도 변화, 각종 ISP의 인터넷 회선 품질 등을 계속 감시하며 변화를 포착하여 미리 대처
- 3개월 후를 보는 역할
- 인프라 전략 담당
- 서버 구매, 데이터센터 스페이스 증강 등
- 경영진의 결재를 얻기 위한 자료 준비
장비 구매
- 사용자 수와 액세스 수 급증 단계에는 최저가 업체보다는 가장 빠른 납품 업체를 고름
- 빨리 대량으로 장비를 긁어모아 액세스 급증의 기세를 멈추지 않도록 함
전망 공유
- 액세스 수 급증 경험이 없는 멤버는 상황을 이해하지 못할 수 있음
- 장비 대량 증강의 이유, 앞으로의 비즈니스, 현재 상황의 지속 기간 등을 설명
인프라의 미래
- 서버와 스토리지의 수용력 확보는 대수만 늘리면 쉽게 해결 가능
- 앞으로의 과제는 전 세계 규모에서의 레이턴시 개선
- 현재까지는 고작 네트워크 상에 캐시 서버를 배치하거나 DB의 디스크 I/O를 개선하는 정도
- 앞으로는 각국의 인터넷 사정을 고려하고 네트워크 특성을 이해한 대책 필요
- 네트워크 회선이 모뎀처럼 좁은 나라, 정보 규제가 심한 공산권, 물리적 거리가 멀고 회선 사정이 나쁜 나라, 아직 모바일 네트워크가 정비되지 않은 나라 등