최근 DeepSeek가 자사의 분산 파일 시스템인 3FS(Fire-Flyer File System)를 오픈소스로 공개했습니다.

/3fs/stage/notes.txt가 하나의 파일로 보이지만, 실제론 여러 서버에 저장됩니다.
/etc/dfs/dfstab, 서비스: rpc.nfsd, rpc.mountd)/etc/fstab, showmount 명령어 사용)| 비교 | 3FS | NFS |
|---|---|---|
| 구조 | 분산형(다수 서버 협력) | 단일 서버 기반 |
| 네트워크 | 고속 RDMA | 일반 TCP/IP |
| 비교 | 3FS | NFS |
|---|---|---|
| 데이터 경로 | 직접 사용자 메모리 전송(빠름) | 복사 단계 많음(느림) |
| 비교 | 3FS | NFS |
|---|---|---|
| 성능 | 매우 우수 | 제한적 |
| 자원 효율성 | 매우 높음 | 낮음 |
| 비교 | 3FS | NFS |
|---|---|---|
| 확장성 | 매우 우수 | 제한적 |
| 비교 | 3FS | NFS |
|---|---|---|
| 장애 복구 | 자동화(고가용성 우수) | 수동 설정 필요 |
| 비교 | 3FS | NFS |
|---|---|---|
| 일관성 | 강력 | 느슨 |
| 항목 | 3FS | NFS |
|---|---|---|
| 아키텍처 | 분산형 | 단일 서버형 |
| 데이터 읽기 방식 | 고속, 최소 단계 | 느림, 복잡 |
| 성능 | 매우 우수 | 보통 이하 |
| 확장성 | 뛰어남 | 제한적 |
| 장애 복구 | 자동화, 뛰어난 고가용성 | 별도 구성 필요 |
| 데이터 일관성 | 강력 | 느슨 |
3FS는 AI 워크 로드에 최적화된 대신 범용성은 떨어집니다.
예를 들어, 작은 파일의 빈번한 수정이 발생하는 일반적인 엔터프라이즈 환경보다는 대용량 데이터의 일괄 처리에 적합합니다.
또한, RDMA와 고성능 SSD 인프라가 필수적이라 초기 구축 비용이 높을 수 있다는 점은 고려해야 할 과제입니다.
하지만 AWS FSx for Lustre, HDFS, Google Colossus, Meta Haystack, JuiceFS, CephFS, SeaweedFS 등등 분산 파일 시스템은 기존에도 다양하게 존재하고 있었음에도 불구하고 DeepSeek가 3FS 기술을 개발하게 된 이유 중 하나는 기존의 솔루션이 범용성에 초점을 두고 있다는 점을 파악하였기 때문이 아닐까 싶습니다.
반면 NFS는 기존의 안정적이고 편리한 파일 공유 목적으로 적합하지만, 성능과 확장성, 안정성 면에서 한계가 있습니다.
팀이 구축하고자 하는 시스템의 규모와 구조, 목적 등을 고려한다면 3FS와 같은 고성능 시스템이 필요치 않을 수도 있습니다.
아직은 각자의 장단점이 존재하는 시스템들이고 3FS는 공개된 지 2주가 채 되지 않은 기술인 만큼 갈 길이 멀어 보이지만 AI 생태계에 합류하고자 하는 개발자라면 이에 대한 학습은 필수불가결하다는 생각이 드는 것 같습니다.
참고:
https://news.hada.io/topic?id=20397
https://brunch.co.kr/@denniskim7/742
https://www.cnblogs.com/JuiceData/p/18780467
https://github.com/deepseek-ai/3FS