2022년 10월 15일, SK C&C 데이터센터에서 불이나 카카오의 서비스(카카오톡, 카카오T, 카카오뱅크, 카카오맵 등)10시간 가량 서비스가 중단됐다.
카카오의 각자대표인 남궁훈-홍은택 대표님들의 사과문에서 원인을 확인해보자.
하지만, 같은 데이터 센터를 사용하는 네이버는 일부 서비스만 약간의 지연이 있었고, 금방 정상복구되었다.
왜 네이버와 카카오의 서비스 복구 시간이 차이가 났을까?
먼저, 네이버는 주요 서비스의 이중화와 서비스 컴포넌트 분산 배치·백업 덕에 영향이 적었다라고 했다. 또한 네이버가 자체 데이터 센터를 갖춘 것도 피해를 최소화하는데 도움을 주었다고 한다.
카카오는 “카카오는 모든 데이터를 국내 여러 데이터센터에 분할 백업하고 있으며, 외부 상황에 따른 장애 대응을 위한 이원화 시스템을 가지고 있습니다. 이번 화재가 발생한 직후, 카카오는 해당 사실을 인지하고 즉시 이원화 조치 적용을 시작했습니다. 다만 이번과 같이 데이터센터 한 곳 전체가 영향을 받는 것은 이례적인 상황으로, 해당 조치를 적용하는데 예상보다 오랜 시간이 소요되고 있습니다.”고 설명했다.
나는 여기서 이 DR이라는 것에 주목해보려고 한다.
DR(Disaster Recovery, 재해복구)은 예상치 못한 사태로 데이터센터에 장애가 발생했을 때를 대비해 원거리에 복제 시스템을 두는 것을 말한다.
DR은 업계에서 대부분이 적용해야하는 개념이기 때문에 카카오가 이용 중인 데이터 센터에도 DR은 있었지만, 동작하지 않았다고 판단했다.
서버 단위의 DR 시스템 테스팅은 비교적 쉽게 할 수 있지만 데이터 센터단위의 이중화를 해야하는 DR 테스트를 진행하기위해서는 데이터와 트래픽의 요구치가 실현 불가능할 정도로 높고, 실시간으로 서비스 중인 카카오가 모의훈련을 명목으로 데이터센터를 건들이기엔 서비스가 다운될 위험이 크다.(즉, 훈련을 위해서는 카카오 서비스를 사용하는 사용자들의 방대한 데이터와 트래픽을 재현해야한다는 것이다.) -> 훈련 레벨이 너무 높다.
위와 같은 의견이 있는 반면,
만약 카카오가 제대로 DR을 갖추고 있었지 않다고 하는 사람들도 존재했다.
이유는 다음과 같다.
그렇다면 여기서 문제는 비용과 기술력라고 한다. 대형통신사의 센터는 물방울,기포 감지 센서도 가지고 있고, 로봇 소화기도 존재한다. 그리고 데이터센터 내부에 발전기와 배터리가 있는데, 정전시 자동으로 발전기와 배터리를 통해 전기가 공급되고 일부 대기업센터에서는 건물내 발전기가 3개나 가지고 있어 발전기 고장시에도 다른 발전기로 전기를 공급한다. 카카오는 추측컨데, 비용과 기술력의 문제로 이를 미룬 가능성이 있다.