[궁금증] '카카오 먹통', 왜?

나경호·2022년 10월 18일
1

놀이터

목록 보기
3/3
post-thumbnail

네이버와 카카오는 무엇이 달랐을까?


2022년 10월 15일, SK C&C 데이터센터에서 불이나 카카오의 서비스(카카오톡, 카카오T, 카카오뱅크, 카카오맵 등)10시간 가량 서비스가 중단됐다.

카카오의 각자대표인 남궁훈-홍은택 대표님들의 사과문에서 원인을 확인해보자.

하지만, 같은 데이터 센터를 사용하는 네이버는 일부 서비스만 약간의 지연이 있었고, 금방 정상복구되었다.

왜 네이버와 카카오의 서비스 복구 시간이 차이가 났을까?

먼저, 네이버는 주요 서비스의 이중화와 서비스 컴포넌트 분산 배치·백업 덕에 영향이 적었다라고 했다. 또한 네이버가 자체 데이터 센터를 갖춘 것도 피해를 최소화하는데 도움을 주었다고 한다.

카카오는 “카카오는 모든 데이터를 국내 여러 데이터센터에 분할 백업하고 있으며, 외부 상황에 따른 장애 대응을 위한 이원화 시스템을 가지고 있습니다. 이번 화재가 발생한 직후, 카카오는 해당 사실을 인지하고 즉시 이원화 조치 적용을 시작했습니다. 다만 이번과 같이 데이터센터 한 곳 전체가 영향을 받는 것은 이례적인 상황으로, 해당 조치를 적용하는데 예상보다 오랜 시간이 소요되고 있습니다.”고 설명했다.

DR(Disaster Recovery)?


나는 여기서 이 DR이라는 것에 주목해보려고 한다.

DR(Disaster Recovery, 재해복구)은 예상치 못한 사태로 데이터센터에 장애가 발생했을 때를 대비해 원거리에 복제 시스템을 두는 것을 말한다.

카카오는 DR 훈련을 하지 않았을까?

DR은 업계에서 대부분이 적용해야하는 개념이기 때문에 카카오가 이용 중인 데이터 센터에도 DR은 있었지만, 동작하지 않았다고 판단했다.

서버 단위의 DR 시스템 테스팅은 비교적 쉽게 할 수 있지만 데이터 센터단위의 이중화를 해야하는 DR 테스트를 진행하기위해서는 데이터와 트래픽의 요구치가 실현 불가능할 정도로 높고, 실시간으로 서비스 중인 카카오가 모의훈련을 명목으로 데이터센터를 건들이기엔 서비스가 다운될 위험이 크다.(즉, 훈련을 위해서는 카카오 서비스를 사용하는 사용자들의 방대한 데이터와 트래픽을 재현해야한다는 것이다.) -> 훈련 레벨이 너무 높다.

위와 같은 의견이 있는 반면,
만약 카카오가 제대로 DR을 갖추고 있었지 않다고 하는 사람들도 존재했다.

이유는 다음과 같다.

  1. 국가의 중요한 시설은 DR이 존재하며, 몇 개월에 한번씩 스위칭 변경 테스트를 진행한다.
  2. 위의 경우 액티브-스탠바이 방식을 사용한다고하고, SKT의 경우 액티브-액티브이라 스위칭 전환에 대략 몇 십분이 소요된다고 한다.
  3. 통신사의 데이터센터의 경우 소화기가 아니라 소화 특수가스등 공기를 없애주는 특수가스시설이 존재한다. 화재가 나면 30초내로 가스가 터지면서 전산실내 모든 공기가 사라진다. 사람이 있을 경우 질식사 할 수 있어, 이런 것을 교육한다.
  4. SKT는 리얼데이터 그대로 스위칭된다. 미국 버라이즌,에이엔티,T모바일 회사들도 리얼 데이터 그대로 이원화 스위칭 전환한다.
  5. DR훈련에서 사용되는 네트워크도 2중화,3중화 되어 있어서(이동통신사 중 예전 기준 SKT 3중화, KT 2중화 되어 있고, 기술력에 차이로 보면 SKT가 가장 좋은 환경을 갖추고 있다고합니다.) 트래픽에 전혀 문제 없다.
  6. 이원화는 전체 서비스를 하는 서버,스토리지,DB,네트워크의 이중화로 보고, 1개 데이터센터 내부에 각 서브 단위별 서버 이중화/네트워크 이중화랑은 다른 개념이다.

그렇다면 여기서 문제는 비용과 기술력라고 한다. 대형통신사의 센터는 물방울,기포 감지 센서도 가지고 있고, 로봇 소화기도 존재한다. 그리고 데이터센터 내부에 발전기와 배터리가 있는데, 정전시 자동으로 발전기와 배터리를 통해 전기가 공급되고 일부 대기업센터에서는 건물내 발전기가 3개나 가지고 있어 발전기 고장시에도 다른 발전기로 전기를 공급한다. 카카오는 추측컨데, 비용과 기술력의 문제로 이를 미룬 가능성이 있다.

Reference

profile
기억창고👩‍🌾

0개의 댓글