현재 데이터 저장소는 관계형 데이터베이스(RDB)와 비관계형 데이터베이스(NoSQL) 이 두가지로 나뉩니다. 어떤 데이터베이스를 사용해야하는지 고민될 때는 이 CAP정리 가 그 기준이 될 수 있습니다.
CAP 정리에 따르면 분산 시스템은 일관성(Consistency), 가용성(Availability), 분할 내성(Partition tolerance)라는 세 가지 특성 중 두 가지 특성만 제공할 수 있습니다.
분산시스템은 동시에 둘 이상의 노드(물리적 또는 가상 머신)에 데이터를 저장하는 네트워크입니다. 모든 클라우드 애플리케이션은 부산 시스템이므로 클라우드 앱을 설계할 때 CAP정리를 이해해야 애플리케이션에 가장 필요한 특성을 제공하는 데이터 관리 시스템을 선택할 수 있습니다.
일관성이란 어떤 노드에 연결하는 모든 클라이언트가 동시에 동일한 데이터를 볼 수 있음을 의미합니다. 이렇게 하려면 데이터가 한 노드에 기록될 때마다 쓰기가 '성공'된 것으로 간주되기 전에 시스템의 다른 모든 노드에 데이터를 즉시 전달하거나 복제해야 합니다.
가용성은 데이터를 요청하는 모든 클라이언트가 하나 이상의 노드가 다운된 경우에도 응답을 받는다는 것을 의미합니다. 즉, 분산시스템의 모든 작업 노드가 예외없이 모든 요청에 대해 유효한 응답을 반환합니다.
분할은 분산 시스템 내의 통신 중단으로, 두 노드 간의 연결이 끊어지거나 일시적으로 지연됩니다. 분할 내성은 시스템의 노드 간 통신 중단이 아무리 많아도 클러스터가 계속 작동해야 함을 의미합니다.
NoSQL 데이터베이스는 분산 네트워크 애플리케이션에 이상적입니다. 수직적으로 확장 가능한 SQL(관계형) 데이터베이스와 달리, NoSQL 데이터베이스는 수평적으로 확장 가능하고 설계상 분산되어 있습니다. 즉, 상호 연결된 여러 노드로 구성된 성장하는 네트워크에서 빠르게 확장할 수 있습니다.
현재 NoSQL 데이터베이스는 지원하는 두 가지 CAP 특성에 따라 분류됩니다.
CP 데이터베이스: CP 데이터베이스는 가용성을 희생하는 대신 일관성과 분할 내성을 제공합니다. 두 노드 사이에 분할이 발생하면 시스템은 분할이 해결될 때까지 일관성이 없는 노드를 종료해야 합니다(즉, 사용할 수 없도록 만들어야 합니다).
AP 데이터베이스: AP 데이터베이스는 일관성을 희생하는 대신 가용성과 분할 내성을 제공합니다. 분할이 발생하면 모든 노드는 계속 사용할 수 있지만 분할의 잘못된 끝에 있는 노드는 다른 노드보다 이전 버전의 데이터를 반환할 수 있습니다. (분할이 해결되면 AP 데이터베이스는 일반적으로 노드를 다시 동기화하여 시스템의 모든 불일치를 복구합니다.)
CA 데이터베이스: CA 데이터베이스는 모든 노드에서 일관성과 가용성을 제공합니다. 그러나 시스템의 두 노드 사이에 분할이 있는 경우에는 이 작업을 수행할 수 없으므로 내결함성을 제공할 수 없습니다.
CA 데이터베이스 유형을 마지막에 나열한 이유는 분산 시스템에서는 분할을 피할 수 없기 때문입니다. 따라서 이론적으로는 CA 분산 데이터베이스에 대해 논의 할 수 있지만, 실제로는 CA 분산 데이터베이스가 존재할 수 없습니다. 그렇다고 해서 필요한 경우 분산 애플리케이션에 대한 CA 데이터베이스를 가질 수 없다는 의미는 아닙니다. PostgreSQL과 같은 많은 관계형 데이터베이스는 일관성과 가용성을 제공하며 복제를 사용하여 여러 노드에 배포할 수 있습니다.
MongoDB는 데이터를 BSON(바이너리 JSON) 문서로 저장하며 널리 사용되는 NoSQL 데이터베이스 관리 시스템입니다. 이는 여러 다른 위치에서 실행되는 빅 데이터 및 실시간 애플리케이션에 자주 사용됩니다. CAP 정리와 관련하여 MongoDB는 CP 데이터 저장소로, 일관성을 유지하면서 가용성을 저하시켜 네트워크 분할을 해결합니다.
MongoDB는 단일 마스터 시스템으로, 각 복제본 세트에는 모든 쓰기 작업을 수신하는 기본 노드가 하나만 있을 수 있습니다. 동일한 복제본 세트의 다른 모든 노드는 기본 노드의 작업 로그를 복제하여 자신의 데이터 세트에 적용하는 보조 노드입니다. 기본적으로 클라이언트는 기본 노드에서도 읽지만, 보조 노드에서 읽을 수 있도록 읽기 기본 설정을 지정할 수도 있습니다.
기본 노드를 사용할 수 없게 되면 가장 최근 작업 로그가 있는 보조 노드가 새 기본 노드로 선택됩니다. 다른 모든 보조 노드가 새 마스터를 따라잡으면 클러스터를 다시 사용할 수 있게 됩니다. 클라이언트는 이 간격 동안 쓰기 요청을 할 수 없으므로 데이터는 전체 네트워크에서 일관되게 유지됩니다.
Apache Cassandra는 Apache Software Foundation에서 유지 관리하는 오픈 소스 NoSQL 데이터베이스입니다. 분산 네트워크에 데이터를 저장할 수 있는 와이드 컬럼 데이터베이스입니다. 그러나 MongoDB와 달리 Cassandra는 마스터리스 아키텍처를 사용하므로 단일 장애 지점이 아닌 여러 장애 지점이 존재합니다.
CAP 정리와 관련하여 Cassandra는 가용성과 분할 내성을 제공하지만 항상 일관성을 제공할 수는 없는 AP 데이터베이스입니다. Cassandra에는 마스터 노드가 없으므로 모든 노드를 지속적으로 사용할 수 있어야 합니다. 그러나 Cassandra는 클라이언트가 언제든지 모든 노드에 쓸 수 있도록 허용하고 불일치를 최대한 빨리 조정할 수 있도록 함으로써 결과적 일관성을 제공합니다.
네트워크 분할의 경우에만 데이터가 일관성을 잃게 되고 불일치가 신속하게 해결되므로 Cassandra는 노드가 피어를 따라잡을 수 있도록 '복구' 기능을 제공합니다. 그러나 지속적인 가용성으로 인해 성능이 우수한 시스템이 구축되는 경우가 많습니다.
마이크로서비스는 자체 데이터베이스 및 데이터베이스 모델을 비롯해 자체 스택을 통합하고 네트워크를 통해 서로 통신하는 느슨하게 결합되고 독립적으로 배포 가능한 애플리케이션 구성 요소입니다. 클라우드 서버와 온프레미스 데이터 센터 모두에서 마이크로서비스를 실행할 수 있으므로 하이브리드 및 멀티클라우드 애플리케이션에 널리 사용되고 있습니다.
CAP 정리를 이해하면 여러 위치에서 실행되는 마이크로서비스 기반 애플리케이션을 설계할 때 최적의 데이터베이스를 선택하는 데 도움이 될 수 있습니다. 예를 들어, 데이터 모델을 빠르게 반복하고 수평으로 확장하는 기능이 애플리케이션에 필수적이지만, 최종적인(엄격하지 않은) 일관성을 허용할 수 있는 경우, Cassandra 또는 Apache CouchDB와 같은 AP 데이터베이스가 요구 사항을 충족하고 배포를 간소화할 수 있습니다. 반면에 전자 상거래 애플리케이션이나 결제 서비스처럼 데이터 일관성에 크게 의존하는 애플리케이션의 경우, PostgreSQL과 같은 관계형 데이터베이스를 선택할 수 있습니다.
출처)
https://www.ibm.com/kr-ko/topics/cap-theorem
참고)
https://velog.io/@broccolism/CAP-정리-대규모-시스템-설계-기초-6장-1
https://techblog.woowahan.com/2687/