DeepSeek 3FS vs NFS

Novelike·2025년 4월 22일
1

Tech

목록 보기
2/8
post-thumbnail

🔍 3FS vs NFS 완벽 비교 정리

최근 DeepSeek가 자사의 분산 파일 시스템인 3FS(Fire-Flyer File System)를 오픈소스로 공개했습니다.

DeepSeek Image

🚀 3FS(Fire-Flyer File System)란?

  • DeepSeek에서 공개한 고성능 분산 파일 시스템입니다.
  • 일반적인 로컬 파일 경로처럼 보이지만, 실제로는 여러 머신에 분산 저장된 데이터를 제공합니다.

📌 분산 파일 시스템이란?

  • 사용자에게는 로컬 파일 시스템처럼 보이지만, 여러 서버에 데이터를 분산 저장합니다.
  • 예시: /3fs/stage/notes.txt가 하나의 파일로 보이지만, 실제론 여러 서버에 저장됩니다.

📌 분산 파일 시스템 사용 이유

  • 대용량 데이터(페타바이트 수준) 지원
  • 높은 처리량과 장애 허용(fault tolerance)
  • 중복성(redundancy)을 통한 안정성
  • 사용 예: HDFS, Google Colossus, Meta Haystack 등

🧩 아키텍처 구성 요소 비교

✅ 3FS 구성 요소

3FS Architecture

  • Meta: 파일 메타데이터 관리, FoundationDB에 저장
  • Mgmtd: 클러스터 노드 관리, 중앙 라우터 역할
  • Storage: 실제 데이터 저장, Rust 기반의 ChunkEngine 사용, 데이터 블록 관리
  • Client: 사용자 요청 처리 및 데이터 전송 관리

✅ NFS 구성 요소

  • NFS 서버: 파일 공유 역할 (설정: /etc/dfs/dfstab, 서비스: rpc.nfsd, rpc.mountd)
  • NFS 클라이언트: 서버 공유 디렉토리를 로컬에 마운트하여 사용 (/etc/fstab, showmount 명령어 사용)
비교3FSNFS
구조분산형(다수 서버 협력)단일 서버 기반
네트워크고속 RDMA일반 TCP/IP

📂 데이터 읽기 방식 (I/O 경로) 비교

  • 3FS: Direct IO, 비동기 I/O(AIO), RDMA 사용해 중간 단계 최소화로 고속 읽기
  • NFS: 네트워크 → 커널 캐시 → 사용자 공간으로 이동해 여러 단계 복사 발생, 성능 저하
비교3FSNFS
데이터 경로직접 사용자 메모리 전송(빠름)복사 단계 많음(느림)

🚄 성능 및 자원 효율성 비교

  • 3FS: 초고속(초당 수십 GB~수 TB), CPU 및 메모리 자원 최소화, GPU 데이터 로딩 효율적
  • NFS: 처리량 제한적(몇 GB/s), 자원 사용 많음
비교3FSNFS
성능매우 우수제한적
자원 효율성매우 높음낮음

📈 확장성 비교

  • 3FS: 서버 추가 시 성능 및 용량 선형적 증가 가능
  • NFS: 단일 서버 성능 한계로 인해 확장성 제한적
비교3FSNFS
확장성매우 우수제한적

🚨 장애 복구 및 고가용성 비교

  • 3FS: 다중 복제, 자동 장애 복구 가능, 서비스 연속성 보장
  • NFS: 단일 장애점 존재, 별도의 HA 구성이 필수적
비교3FSNFS
장애 복구자동화(고가용성 우수)수동 설정 필요

🔄 데이터 일관성 비교

  • 3FS: 강력한 일관성 유지, 항상 최신 데이터 제공
  • NFS: 느슨한 일관성, 데이터 업데이트 지연 발생 가능
비교3FSNFS
일관성강력느슨

📌 최종 요약

항목3FSNFS
아키텍처분산형단일 서버형
데이터 읽기 방식고속, 최소 단계느림, 복잡
성능매우 우수보통 이하
확장성뛰어남제한적
장애 복구자동화, 뛰어난 고가용성별도 구성 필요
데이터 일관성강력느슨

정리

3FSAI 워크 로드에 최적화된 대신 범용성은 떨어집니다.

예를 들어, 작은 파일의 빈번한 수정이 발생하는 일반적인 엔터프라이즈 환경보다는 대용량 데이터의 일괄 처리에 적합합니다.

또한, RDMA와 고성능 SSD 인프라가 필수적이라 초기 구축 비용이 높을 수 있다는 점은 고려해야 할 과제입니다.

하지만 AWS FSx for Lustre, HDFS, Google Colossus, Meta Haystack, JuiceFS, CephFS, SeaweedFS 등등 분산 파일 시스템은 기존에도 다양하게 존재하고 있었음에도 불구하고 DeepSeek가 3FS 기술을 개발하게 된 이유 중 하나는 기존의 솔루션이 범용성에 초점을 두고 있다는 점을 파악하였기 때문이 아닐까 싶습니다.

반면 NFS는 기존의 안정적이고 편리한 파일 공유 목적으로 적합하지만, 성능과 확장성, 안정성 면에서 한계가 있습니다.

팀이 구축하고자 하는 시스템의 규모와 구조, 목적 등을 고려한다면 3FS와 같은 고성능 시스템이 필요치 않을 수도 있습니다.
아직은 각자의 장단점이 존재하는 시스템들이고 3FS는 공개된 지 2주가 채 되지 않은 기술인 만큼 갈 길이 멀어 보이지만 AI 생태계에 합류하고자 하는 개발자라면 이에 대한 학습은 필수불가결하다는 생각이 드는 것 같습니다.


참고:
https://news.hada.io/topic?id=20397
https://brunch.co.kr/@denniskim7/742
https://www.cnblogs.com/JuiceData/p/18780467
https://github.com/deepseek-ai/3FS

profile
주니어 개발자

0개의 댓글