키-값 저장소(key-value store)는 키-값 데이터베이스라고도 불리는 비 관계형(non-relational) 데이터베이스이다.
이 저장소에 저장되는 값은 고유 식별자(identifier) 를 키로 가져야 하며, 키와 값 사이의 이러한 연결 관계를 ‘키-값’ 쌍이라고 지칭한다. 키는 유일해야 하며, 해당 키에 매달린 값은 키를 통해서만 접근할 수 있다.
아마존 DynamoDB, memcached, Redis 등이 키-값 저장소의 예다.
한 대의 서버만 사용하는 키-값 저장소를 설계하는 가장 직관적인 방법은, 키-값 쌍 전부를 메모리에 해시 테이블로 저장하는 것이다. 이 방법은 빠른 속도를 보장하고 있긴 하지만 모든 데이터를 메모리 안에 두는 것이 불가능할 수도 있다는 약점을 가지고 있다. 이에 대한 개선책으로는 아래와 같은 것이 있다.
이러한 개선책으로도 단일 서버로는 부족해지는 상황이 온다. 많은 데이터를 저장하려면 분산 키-값 저장소(distributed key-value store) 를 만들 필요가 있다.
키-값 쌍을 여러 서버에 분산시키기 때문에 분산 해시 테이블이라고도 불린다.
분산 시스템을 설계할 때는 CAP 정리를 이해하고 있어야 한다.
CAP 정리는 데이터 일관성, 가용성, 파티션 감내 라는 세 가지 요구사항을 동시에 만족하는 분산 시스템을 설계하는 것은 불가능하다는 정리다. 세 요구사항 중 두 가지를 충족하려면 나머지 하나를 희생해야 하는 트레이드오프를 고려해야 한다.
CAP | 내용 |
---|---|
C (Consistency, 데이터 일관성) | 분산 시스템에 접속하는 모든 클라이언트는 어떤 노드에 접속했느냐에 관계 없이 언제나 같은 데이터를 보게 되어야 한다. |
A (Availability, 가용성) | 분산 시스템에 접속하는 클라이언트는 일부 노드에 장애가 발생해도 항상 응답을 받을 수 있어야 한다. |
P (Partition tolerance, 파티션 감내) | 파티션은 네트워크 상 노드 사이에 통신 장애가 발생하였음을 의미한다. 파티션 감내는 네트워크에 파티션이 생기더라도 시스템은 계속 동작하여야 한다는 것을 뜻한다. |
파티션 감내에서 등장하는 네트워크 파티션은 네트워크 장애로 인해 분산 시스템의 일부 노드들이 통신할 수 없는 상태가 되는 상황이다. 분산 시스템의 네트쿼크가 분리된 상태로 볼 수 있는데, 이 때문에 네트워크 통신 장애가 발생해 데이터 동기화나 요청 문제가 발생할 수 있다.
[예시 상황]
- 여러 서버(A, B, C, D)가 서로 통신하며 데이터를 동기화하고 있다고 가정
- 갑자기 네트워크 장애가 발생하여 서버 A와 B는 서로 통신할 수 있지만, 서버 C와 D는 다른 네트워크 섹션에 갇혀 A와 B와 통신하지 못하는 상황
A -- B
X X (네트워크 장애)
C -- D
이 경우, A와 B는 서로 통신할 수 있지만, C와 D는 A, B와 분리된 네트워크 파티션에 속해 서로 통신할 수 없다.
즉, 네트워크가 둘로 분리된 상태이다.