"가상 면접 사례로 배우는 대규모 시스템 설계 기초"를 읽고 정리한 글입니다 :)
페이스북에서는 뉴스 피드에 대해 다음과 같이 말하고 있다. "뉴스 피드는 여러분의 홈 페이지 중앙에 지속적으로 업데이트되는 스토리들로, 사용자 상태 정보 업데이트, 사진, 비디오, 링크, 앱 활동, 그리고 여러분이 페이스북에서 팔로우하는 사람들, 페이지, 또는 그룹으로부터 나오는 '좋아요' 등을 포함한다" 이러한 뉴스 피드 시스템 설계는 아주 유명한 면접 문제로써 널리 사용된다.
뉴스 피드 시스템을 설계하기 위해 고려해야할 요구사항은 다음과 같다.
뉴스 피드 시스템에는 크게 두가지 기능이 있을 것이다. 첫째로 피드를 발행(Feed Publishing)하는 기능과 다음으로 뉴스 피드를 생성(New Feed Building)하는 기능일 것이다.
피드 발행은 사용자가 스토리를 포스팅하는 것을 의미하며, 뉴스 피드 생성은 사용자가 조회할 뉴스 피드를 만드는 것을 의미한다. 피드 발행은 사용자가 스토리를 포스팅하면 해당 데이터를 캐시와 DB에 기록하고, 새 포스팅을 친구의 뉴스 피드에 전달해주어야 한다. 뉴스 피드 생성은 본래라면 꽤나 복잡한 알고리즘이 동작하겠지만, 여기서는 간단하게 모든 친구의 포스팅을 시간 흐름 역순으로 모아서 만든다고 가정한다.
피드를 발행할 때는 포스팅을 저장하는 서비스와 포스팅을 전송하는 서비스가 필요할 것이다. 포스팅 저장 서비스(Post Service)는 새 포스팅을 DB와 캐시에 저장하는 역할을 맡는다. 포스팅 전송 서비스(Fanout Service)는 새 포스팅을 친구의 뉴스 피드에 푸시(Push)하는 역할을 맞는다. 이 때, 뉴스 피드 데이터는 캐시에 보관하여 빠르게 읽어갈 수 있도록 한다.
이와 별개로 친구들에게 새 포스팅이 올라왔음을 알려줄 알림 서비스도 있으면 더 좋을 것이다.
뉴스 피드를 생성할 때는 빠르게 피드 데이터를 가져오는 것이 중요하다. 그렇기에 뉴스 피드 서비스는 캐시에서 뉴스 피드를 가져올 것인데, 이때 포스팅 전송 서비스가 데이터를 저장한 캐시를 사용하면 될 것이다. 해당 뉴스 피드 캐시는 뉴스 피드를 렌더링할 때 필요한 피드 ID를 보관하고, 실제 포스팅 데이터는 저장하지 않는다. 이는 메모리를 효율적으로 사용하기 위함이다.
우선 사용자의 요청을 받을 웹 서버가 필요하다. 사용자의 요청을 받은 뒤, 포스팅 저장 서비스와 포스팅 전송 서비스, 알림 서비스 등에 Job을 전파하는 책임을 지닌다. 또한, 웹 서버는 클라이언트와 통신할 뿐 아니라 인증이나 처리율 제한 등의 기능도 수행한다. 올바르게 인증된 사용자만 포스팅을 할 수 있어야 하며, 유해한 콘텐츠가 자주 올라오는 것을 방지하기 위해 처리율을 제한할 수 있어야 한다.
포스팅 전송, 즉 팬아웃(Fanout)은 어떤 사용자의 새 포스팅을 그 사용자와 친구 관계에 있는 모든 사용자에게 전달하는 하는 것이다. 팬아웃에는 두 가지 모델이 있는데, 하나는 쓰기 시점에 팬아웃(Fanout-on-Write)하는 모델이고(Push 모델이라고도 함), 다른 하나는 읽기 시점에 팬아웃(Fanout-on-Read)이다.(Pull 모델이라고도 함)
이 두 가지 모델의 장단점은 다음과 같다.
Fanout on Write, Push Model
Fanout on Read, Pull Model
두 모델 모두 각각의 장단점이 있다. 이 책에서는 두 가지 방법을 결합하여 장점은 취하고 단점은 버리는 전략을 취한다. 뉴스 피드를 빠르게 가져오는 것은 중요하므로 대부분의 사용자에 대해서는 푸시 모델을 사용한다. 단 친구나 팔로워가 아주 많은 사용자의 경우에는 팔로워로 하여금 해당 사용자에 대해 풀 모델을 사용하도록 한다. 아울러 안정 해시(Consistent Hashing)을 통해 요청과 데이터를 보다 고르게 분산하여 핫키 문제를 줄이려고 시도한다.
이제 팬아웃 서비스가 동작하는 과정을 설명하자면,
<포스팅 ID, 사용자 ID>
순서쌍을 보관하는 매핑 테이블로 설계하는 것이 일반적이다.뉴스 피드 서비스는 비교적 간단하게 설계할 수 있다. 뉴스 피드 서비스는 뉴스 피드 캐시에서 포스팅 ID 목록을 가져온다. 이후 뉴스 피드에 표시할 사용자 이름, 사용자 사진, 포스팅 콘텐츠 등을 캐시 및 DB에서 가져와 완전한 뉴스 피드를 만든다.
여기서 이미지나 비디오와 같은 미디어 콘텐츠는 CDN을 통해 제공함으로써 성능을 조금 더 높일 수 있을 것이다.
캐시는 뉴스 피드 시스템의 핵심 컴포넌트이다. 캐시를 어떻게 설계하냐는 다양한 방법이 있겠지만, 해당 책에서는 다음과 같이 5계층으로 설계하였다.
다른 설계 문제와 마찬가지로, 이번 문제에도 정답은 없다. 각 상황마다 독특한 제약이나 요구조건이 있을 것이기에, 시스템을 설계할 때는 그런 점들을 고려해야 한다. 설계를 진행하고 기술을 선택할 때는 그 배경에 어떤 Trade-Off들이 있는지 잘 이해하고 설명할 수 있어야 한다.
더 고민해보면 좋을 것들은 다음과 같다.
이것들을 짧은 시간내에 고려하고 설계하는 것은 불가능할 것이다. 차근차근 하나씩 고민해보면 좋을 것이다.