Network / Infra 의 가장 기본은 '유지'라는 속성이다.(본인이 생각한 바)
'현재 네트워크를 얼마나 잘 유지할 수 있는가?' 라는 질문이 네트워크 품질의 지표를 나타낸다. 재난상황을 신속하고 정확하게 극복할 수 있는 네트워크가 상대적으로 좋은 네트워크라고 할 수 있을 것이다.
그런 의미에서 2018년 발생했던 KT 아현국사 화재 사고를 떠올리며, 각 통신사업자가 가져야할 바람직한 망 구조에 대해
위 기사를 통해 배우고 느낀 점을 적고자 한다.
통신 사업자의 망 구조는 기본적으로 서비스 단절이 없어야 한다. 장애 발생 시에도 서비스 단절이 없도록 우회경로 확보 및 장애복구 방법 마련이 필요하다.
그렇다면 통신망 장애를 일으키는 주요 원인들 중 무엇이 있을까?
- 휴먼 에러: 운영진의 설정 미숙/실수 등
- 장비: 통신망 장비의 소프트웨어 (통신 프로토콜, 장비 OS 등)상 오류, 통신망 장비의 하드웨어적 다운
- 광선로: 통신 선로상의 장애/광 케이블 절단(누군가 땅 파다가/차가 전주를 들이받아 등)
- 토폴러지: 통신망 설계시/구축시 투자비로 인한 우회 경로 미구현
- 국사: 얼마전 KT 아현국사 사례처럼 화재로 인한 국사 자체의 파손 (Geo-Redundancy 미고려 등)
아현국사 화재의 예 뿐만 아니라, 얼마전 휴먼에러로 추정되는 사고로 인해 37분간 인터넷 검색부터 상점의 결제 시스템, 기업과 병원ㆍ은행ㆍ증권 업무시스템 등 전반에 걸쳐 서비스가 불통됐다.
이 당시 더 빠르게 네트워크를 복구시킬 순 없었을까? 장애 복구를 빠르게 할 수 있는 망 구조가 무엇일까? 우선 아현국사 화재 당시의 KT 망 구조 문제점을 시작으로 대비할 수 있는 망 구조를 알아보자.
KT 모바일망의 경우 4G LTE RAN이 위 그림처럼 C-RAN 구조(BBU와 RRH의 분리)이며 셀사이트의 RRH와 CO(통신국사)의 BBU는 Dark Fiber로 직결되어 있다 (P2P: Point-to-Point 직결 구조임). 풍부한 Fiber로 인해 별도의 WDM 같은 전송장비없이 프론트홀을 구축했다. 이 구조는 용량상 매우 큰 장점을 가진다.
위 그림에서 보듯이 셀사이트와 CO간의 Dark Fiber가 사고로 절단되면 그 지역은 서비스가 단절된다.
또한 각 RRH는 하나의 CO로만 집선되므로 CO가 화재/지진 등으로 파손되면 해당 CO 하단의 모든 RRH의 상향 경로는 모두 끊긴다.
서비스 단절 및 장애 해결 방법의 가장 기본은 우회 경로 확보이다.
통신망은 기본적으로 IP백본망(코어망)과 액세스망으로 나눌 수 있다. 대부분의 통신사업자들은 코어망에 충분한 우회경로를 확보해놓는다. 하지만 액세스망에 대해서는 우회 경로 확보가 완전히 되어있지 않는 기업들이 충분히 많은 것으로 보인다.
사례를 통해 여러 통신 사업자들의 우회경로 확보 방법에 대해 파헤쳐보자. (2018년 기준)
SKT의 경우, 셀사이트의 RRH들과 CO의 BBU을 연결하는 프론트홀망이 WDM 링 구조(셀사이트에 WDM RT, CO에 WDM COT 장비)로 되어 있다. 링구조이기 때문에 각 셀 사이트는 CO로 2개의 경로(시계방향과 반시계방향)를 갖는다.
액세스망에서 Fiber-cut이 발생해도 각 셀사이트의 트래픽은 우회 경로를 통해 CO로 정상적으로 전달되어 서비스 단절은 없다.
하지만
SK Telecom의 경우도 액세스구간은 링이지만 이 액세스링이 하나의 CO로만 연결되어 있기 때문에 CO 자체가 화재 등으로 손실되면, KT와 마찬가지로 CO 하단의 모든 이동 통신은 두절된다
그렇다면, CO 장애시에도 우회 경로를 마련한 해외 통신 사업자의 사례를 살펴보자.
동경 내 100개의 국사가 존재하며 이 국사들은 코어링(노란색 국사)과 액세스링(흰색 국사)으로 연결되어 있다. 액세스링내 Fiber-cut이 발생하거나 링내 라우터가 죽으면 반대 방향으로 트래픽을 전달하여 장애를 복구한다. 자세히 살펴보면 여러 개의 링 구조가 얽히고 섥혀있는 모양으로 망이 구성되어 있다.
액세스망이 링구조이어서 Fiber-Cut이 발생하거나 CCS에 장애가 발생해도 우회경로가 자연스레 존재한다(사고시 반대 방향으로 전달). 중요한 점은 이 링이 두 개의 국사(아래 그림에서 AG1)에서 종단된다는 점이다. 하나의 국사가 모두 파손되어도 다른 국사를 통해 트래픽들을 정상적으로 전달된다.
액세스망의 노드와 코어망의 노드가 각각 최소 두 개로 이루어져 있는 링 구조를 단위로 하는 망 구조
그림으로 표현하자면 이렇다.
이 구조를 최소단위로 얽히고 섥혀있을 때 최소 한 개의 우회경로가 확보될 수 있고, 그에 따라 발생하는 장애를 빠르게 극복할 수 있을 것이다.(자신없다..)
"투자가 필요하다."
물론, 세계 각국의 통신사업자들이 이중화 방안을 몰라서 안 하는 것은 아니다. 투자의 문제다. 이중화/삼중화/사중화를 구현하기 위해서는 비용이 그와 비례하게 들어간다.
현실로 다가오고 있는 5G 시대에는 단순히 스마트폰뿐만 아니라 다양한 사물들(자동차, 센서, 로봇, 드론, 등)이 통신망에 연결된다. 오만 가지 종류의 셀 수 없이 많은 기기들이 5G 망에 연결되기 때문에 소수의 지역이라도 통신 두절이 발생하면, 상상할 수 없는 재난(교통사고, 드론의 인간 충돌, 공장 기기/로봇 오작동 등등)이 발생할 수 있다.
투자를 통해 최소 이중화/이원화하여 우회경로를 확보하고 장애발생 시 빠르게 극복할 수 있도록 인프라를 조성해야할 것이다.