8장에서는 URL 단축기 설계에 대해서 다룬다. URL 단축(tiny url)은 축약된 URL 입력시 HTTP 요청을 원래 URL로 리다이렉션하는 기술이다. 높은 가용성과 규모 확장성, 장애 감내가 요구된다.
이 장에서는 URL 단축기의 설계에 대해서는 다루지만, URL 단축을 왜 사용해야 하는지, 어떠한 장점이 있는지에 대해서는 설명하지 않는다.
이 링크를 읽어 본 후, URL 단축을 하는 이유에 대해서 정리해보자
이 장에서 문제의 요구 사항과 개략적 추정은 다음과 같이 이끌어냈다.
설계 면접 시, 더 많은 힌트와 상세한 요구 사항을 이끌어낼 수 있도록 질문을 생각하는 연습을 하자.
이번 섹션에서는 차례대로 API 엔드포인트, URL 리디렉션, URL 단축 플로우에 대해서 살펴본다.
클라이언트는 서버가 제공하는 API 엔드포인트를 통해 서버와 통신한다. 이 엔드포인트를 REST(Representational State Transfer) 스타일로 설계할 것이다. URL 단축기는 기본적으로 두 개의 엔드포인트를 필요로 한다.
URL 단축용 엔드포인트
POST /api/v1/data/shorten
URL 리다이렉션용 엔드포인트
GET /api/v1/shortUrl
다음 그림은 브라우저에 단축 URL을 입력하면 무슨 일이 생기는지 보여준다.
단축 URL을 받은 서버는 그 URL을 원래 URL로 바꾸어서 301 응답의 Location 헤더에 넣어 반환한다.
다음 그림은 클라이언트와 서버 사이의 통신 절차를 더 자세히 보여준다.
여기서 유의할 것은 301 응답과 302 응답의 차이다. 둘 다 리다이렉션 응답이지만 차이가 있다.
이 두 방법은 각기 다른 장단점을 갖고 있다. 서버 부하를 줄이는 것이 중요하다면 301 Permanent Moved를 사용하는 것이 좋은데 첫 번째 요청만 단축 URL 서버로 전송될 것이기 때문이다. 하지만 트래픽 분석이 중요할 때는 302 Foudn를 쓰는 쪽이 클릭 발생률이나 발생 위치를 추적하는 데 좀 더 유리할 것이다.
URL 리다이렉션을 구현하는 가장 직관적인 방법은 해시 테이블을 사용하는 것이다. 해시 테이블에 <단축 URL, 원래 URL>의 쌍을 저장한다면, URL 리다이렉션은 다음과 같이 구현될 수 있을 것이다.
단축 URL이 www.tinyurl/{hashValue} 같은 형태라고 해 보자. 결국 중요한 것은 긴 URL을 이 해시 값으로 대응시킬 해시 함수 fx를 찾는 일이 될 것이다.
이 해시 함수는 다음 요구사항을 만족해야 한다.
이 해시 함수에 대한 상세 설계는 다음 섹션에서 다룬다.
URL을 단축하는 방법과 리다이렉션 처리에 관계된 개략적 설계안은 살펴보았다. 이번 섹션에서는 데이터 모델, 해시 함수, URL 단축 및 리다이렉션에 관한 보다 구체적인 설계를 한다.
리다이렉션을 해시 테이블로 설계하는 것은 초기 전략으로는 괜찮지만, 메모리는 유한한 데다 비싸기 때문에 실제 시스템에 쓰기에는 곤란하다. 더 나은 방법은 <단축 URL, 원래 URL>의 순서쌍을 관계형 데이터베이스에 저장하는 것이다. 다음 그림은 이 테이블의 간단한 설계이다. 이 테이블은 단순화된 것으로(실제 테이블은 이것보다 더 많은 칼럼을 가질 수 있다.), id, shortURL, longURL의 세 개 칼럼을 갖는다.
해시 함수는 원래 URL을 단축 URL로 변환하는 데 쓰인다. 편의상 해시 함수가 계산하는 단축 URL 값을 hashValue라고 지칭한다.
hashValue는 [0-9, a-z, A-Z]의 문자들로 구성된다. 따라서 사용할 수 있는 문자의 개수는 10+26+26 = 62개다. hashValue의 길이를 정하기 위해서는 62^n >= 3650억인 n의 최솟값을 찾아야 한다. 개략적으로 계산했던 추정치에 따르면 이 시스템은 3650억 개의 URL을 만들어 낼 수 있어야 한다.
다음 표는 hashValue의 길이와, 해시 함수가 만들 수 있는 URL 개수 사이의 관계를 나타낸다.
n=7이면, 3.5조 개의 URL을 만들 수 있다. 요구사항을 만족시키기 충분한 값이기에 hashValue의 길이는 7로 가정한다.
해시 함수 구현에 쓰일 기술로 두 가지 방법을 살펴본다. 하나는 '해시 후 충돌 해소' 방법이고, 다른 하나는 'base-62 변환법'이다. 각각을 차례대로 살펴보자.
긴 URL을 줄이려면, 원래 URL을 7글자 문자열로 줄이는 해시 함수가 필요하다. 손쉬운 방법은 CRC32, MD5, SHA-1 같이 잘 알려진 해시 함수를 이용하는 것이다. 이들 함수를 사용하여 'https:/en.wikipedia.org/wiki/Systems_design'을 축약한 결과는 다음과 같다.
그러나, CRC32가 계산한 가장 짧은 해시값조차도 7보다는 길다. 어떻게 줄일 수 있을까?
이 문제를 해결할 첫 번째 방법은 계산된 해시 값에서 처음 7개 글자만 이용하는 것이다. 하지만 이렇게 하면 해시 결과가 서로 충돌할 확률이 높아진다. 충돌이 실제로 발생했을 때는, 충돌이 해소될 때까지 사전에 정한 문자열을 해시값에 덧붙인다. 이 절차는 다음과 같다.
이 방법을 쓰면 충돌은 해소할 수 있지만 단축 URL을 생성할 때 한 번 이상 데이터베이스 질의를 해야 하므로 오버헤드가 크다. 데이터베이스 대신 블룸 필터를 사용하면 성능을 높일 수 있다. 블룸 필터는 어떤 집합에 특정 원소가 있는지 검사할 수 있도록 하는, 확률론에 기초한 공간 효율이 좋은 기술이다.
진법 변환(base conversion)은 URL 단축키를 구현할 때 흔히 사용되는 접근법 중 하나다. 이 기법은 수의 표현 방식이 다른 두 시스템이 같은 수를 공유해야 하는 경우에 유용하다. 62진법을 쓰는 이유는 hashValue에 사용할 수 있는 문자의 개수가 62개이기 때문이다.
10진수로 11157
을 62진법으로 변환한다면 2TX
가 된다.
직접 해보자. 진법 변환을 모른다면 찾아보자!
다음 표는 두 접근법 사이의 차이를 요약한 내용이다.
URL 단축기는 시스템의 핵심 컴포넌트이므로, 그 처리 흐름이 논리적으로는 단순해야 하고 기능적으로는 언제나 동작하는 상태로 유지되어야 한다. 다음 그림은 62진법 변환 기법을 이용한 처리 흐름을 순서도 형태로 정리한 그림이다.
아래의 예제를 통하여 조금 더 자세하게 알아보자.
ID 생성기의 주된 용도는, 단축 URL을 만들 때 사용할 ID를 만드는 것이고, 이 ID는 전역적 유일성(globally unique)이 보장되는 것이어야 한다. 고도로 분산된 환경에서 이런 생성기를 만드는 것은 무척 어려운 일이다. (그러나, 이전 장에서 유일 ID 생성기의 설계를 이미 학습하였다! 까먹었다면 바보! 나는 바보!)
다음 그림은 URL 리다이렉션 메커니즘의 상세한 설계를 그리고 있다.
쓰기보다 읽기를 더 자주 하는 시스템이라, <단축 URL, 원래 URL>의 쌍을 캐시에 저장하여 성능을 높였다.
로드밸런서의 동작 흐름은 다음과 같이 요약할 수 있다.
다음은 URL 단축기를 설계하면서 추가적으로 고민해 볼 수 있는 사항들이다.
처리율 제한 장치(rate limiter)
- 지금까지 살펴본 시스템은 엄청난 양의 URL 단축 요청이 있을 경우 무력화될 수 있다는 잠재적 보안 결함을 갖고 있다. 처리율 제한 장치를 두면, IP 주소를 비롯한 필터링 규칙들을 이용해 요청을 걸러낼 수 있을 것이다.
웹 서버의 규모 확장
- 본 설계에 포함된 웹 계층은 무상태 계층이므로, 웹 서버를 자유롭게 증설하거나 삭제할 수 있다.
데이터베이스의 규모 확장
- 데이터베이스를 다중화하거나 샤딩(sharding)하여 규모 확장성을 달성할 수 있다.
데이터 분석 솔루션(analytics)
- 성공적인 비즈니스를 위해서는 데이터가 중요하다. URL 단축기에 데이터 분석 솔루션을 통합해 두면 어떤 링크를 얼마나 많은 사용자가 클릭했는지, 언제 주로 클릭했는지 등 중요한 정보를 알아낼 수 있을 것이다.
가용성, 데이터 일관성, 안정성
- 대규모 시스템이 성공적으로 운영되기 위해서는 반드시 갖추어야 할 속성들이다.
REF