뉴스 피드 시스템 설계

haaaalin·2023년 8월 25일
0
post-thumbnail

설계 범위

요구사항

  • 모바일, 웹 지원
  • 뉴스 피드 새로운 스토리 추가, 친구들 스토리 열람 기능
  • 시간 흐름 역순 표시
  • 최대 5,000명의 친구
  • 트래픽 규모: 매일 천만 명
  • 스토리에는 이미지와 비디오 등 미디어 파일 포함 가능

설계안

피드 발행

사용자가 스토리 포스팅 시, 해당 데이터를 캐시와 DB에 기록

새 포스팅은 친구의 뉴스 피드에도 전송

뉴스 피드 API

피드 발행 API: 새 스토리를 포스팅 하는 API

피드 읽기 API: 뉴스 피드를 가져오는 API

피드 발행 시스템 형태

  • 포스팅 저장 서비스: 새 포스팅을 캐시와 데이터베이스에 저장
  • 포스팅 전송 서비스: 새 포스팅을 친구의 뉴스 피드에 push, 뉴스 피드 데이터는 캐시에 보관하여 빠르게 읽을 수 있도록

뉴스 피드 생성

모든 친구의 포스팅을 시간 흐름 역순으로 모아 생성

  • 뉴스 피드 서비스: 캐시에서 뉴스 피드를 가져온다
  • 뉴스 피드 캐시: 뉴스 피드를 렌더링할 때 필요한 피드 ID 보관

상세 설계

피드 발행 흐름

웹 서버

  • 클라이언트와 통신
  • 인증 → 올바른 인증 토큰을 헤더에 넣고 API 호출
  • 처리율 제한 → 특정 기간 동안 한 사용자가 올릴 수 있는 포스팅 수 제한

포스팅 전송(팬아웃) 서비스

팬아웃이란?
어떤 사용자의 새 포스팅을 그 사용자와, 친구 관계에 있는 모든 사용자에게 전달하는 과정

쓰기 시점에 팬아웃 모델 (push 모델)

→ 포스팅이 완료되면, 바로 해당 사용자의 캐시에 해당 포스팅 기록

장점

  • 뉴스 피드가 실시간으로 갱신
  • 새 포스팅이 기록되는 순간에 뉴스 피드가 갱신되므로, 뉴스 피드를 읽는 데 드는 시간 단축

단점

  • 친구가 많은 사용자의 경우, 그 친구들의 뉴스 피드를 갱신하는 데 많은 시간 소요(핫키)
  • 서비스를 자주 이용하지 않는 사용자의 피드까지 갱신 → 자원 낭비

읽기 시점에 팬아웃 모델 (pull 모델)

→ 사용자가 본인 홈페이지나 타임 라인을 로딩하는 시점에 새로운 포스팅 가져오기 (요청 기반 모델)

장점

  • 비활성화된 사용자, 서비스에 거의 로그인하지 않는 사용자의 경우 유리
  • 친구 각각에 푸시하는 작업 필요 X → 핫키 문제 발생 X

단점

  • 뉴스 피드를 읽는 데 많은 시간 소요

일반적인 사용자: 뉴스 피드를 빠르게 가져올 수 있도록, 푸시 모델 사용

친구나 팔로어가 많은 사용자: 해당 사용자의 포스팅을 필요할 때 가져가도록 하는 pull 모델

포스팅 전송 서비스 (팬아웃 서비스) 설계

  1. 그래프 DB에서 친구 ID 목록 조회
  2. 사용자 정보 캐시에서 친구들의 정보 조회
    • 업데이트 무시 설정이나, 일부 사용자에게만 공유 설정 등을 고려해 친구 목록을 걸러낸다
  3. 친구 목록과 새 스토리의 포스팅 ID를 메시지 큐에 넣는다
  4. 팬아웃 작업 서버가 데이터를 꺼내 뉴스 피드 데이터를 뉴스 피드 캐시에 넣는다.

  • 뉴스 피드 캐시는 위처럼 <포스팅 ID, 사용자 ID> 의 순서쌍을 저장하고 있다.
  • 새로운 포스팅이 추가될 때마다, 이 캐시에 사진과 같은 레코드들이 추가될 예정

피드 읽기 흐름 설계

이미지나 비디오 같은 미디어 콘텐츠는 CDN에 저장하여 빨리 읽을 수 있도록 하였다.

  1. 사용자가 뉴스 피드 읽기 요청
  2. 로드밸런서가 요청을 웹 서버 가운데 하나로 전송
  3. 웹 서버는 뉴스 피드 서비스 호출
  4. 뉴스 피드 서비스는 뉴스 피드 캐시에서 포스팅 ID 목록 조회
  5. 뉴스 피드에 표시할 사용자 이름, 사진, 포스팅 콘텐츠, 이미지 등을 사용자 캐시와 포스팅 캐시에서 가져와 뉴스 피드 생성
  6. 생성된 뉴스 피드를 JSON 형태로 클라이언트에게 전송

캐시 구조

캐시를 다섯 계층으로 나눈다.

  • 뉴스 피드: 뉴스 피드의 ID
  • 콘텐츠: 포스팅 데이터 보관, 인긴 콘텐츠는 따로 보관
  • 소셜 그래프: 사용자 간 관계 정보 보관
  • 행동: 포스팅에 대한 사용자의 행위
  • 횟수: 좋아요, 답글, 팔로어, 팔로잉 수 등의 정보 보관

논의해 볼 점

데이터베이스 규모 확장

  • 수직적 vs 수평적 규모 확장
  • SQL vs NoSQL
  • 주-부 다중화
  • 복제본에 대한 읽기 연산
  • 일관성 모델
  • 데이터베이스 샤딩

기타

  • 웹 계층 무상태 운영
  • 최대 캐시 데이터
  • 여러 데이터 센터 지원 방법
  • 메시지 큐를 사용하여 컴포넌트 사이의 결합도 낮추기
  • 핵심 메트릭에 대한 모니터링
profile
한 걸음 한 걸음 쌓아가자😎

0개의 댓글