마이크로소프트의 Fairwater AI 데이터센터

hyeok's Log·2025년 10월 24일

DataCenter

목록 보기
11/15

,,토막글,,

Microsoft가 위스콘신 주에 건설한 Fairwater Datacenter는 AI 모델을 운용하는 거대한 공장 개념으로 설계된 세계 최대 규모의 데이터센터 중 하나이다. 약 40만평 (= 축구장 134개 정도 되는 크기란다) 정도 되는 부지 위에 3개의 대형 건물들로 구성되어 있다.

  • AI 공장이라는 표현은 AI 모델 학습과 추론이 인간의 산업생산처럼 반복적이고 대규모 병렬 처리가 되는 형태로 구성되었다는 의미란다.

System Architecture

NVIDIA GB300 NVL72 기반 GPU 서버가 클러스터의 핵심 단위로, Azure ND GB300 v6 VM에서 구동된다.

(NVIDIA NVL72 Rack의 모습 - 작년 SC에서 실물로 봤었는데, 그때 들었던 생각이, NVIDIA는 새삼 기술도 기술이지만 참 미장센(?)을 잘 준비한다고 느꼈다. 미래에서 온 Rack처럼 멋들어지게 잘 만든듯 하다)

  • 각 NVL72 Rack은 72개의 NVIDIA Blackwell Ultra GPU와 36개의 Grace CPU로 구성되어 있으며, GPU 간에는 NVLink 및 NVSwitch 아키텍처로 통신이 이루어진다.
  • 이 구조는 GPU 간 약 130 TB/s의 NVLink 대역폭을 확보한다고 하며, 37 TB 규모의 Pooled 메모리, 그리고 Rack당 1,440 PFLOPS 정도를 제공할 수 있다고 한다.
  • Rack 간 연결은 NVIDIA Quantum-X800 InfiniBand (800 Gb/s) 네트워크를 통해 구성되며,
    전체 데이터센터는 full fat-tree 비-차단 Topology로 묶여 수만대의 GPU가 효율적으로 스케일링할 수 있다고 한다.

Storage의 경우엔 데이터 저장용으로 따로 데이터센터를 분리시켜 놓고, 거기서 Azure Blob Storage 서비스를 제공하는 방식이라고 한다.


세계 최대급 Liquid-Cooling System

  • 공기냉각 대신 Closed-Loop Liquid Cooling 시스템 (세계 2위 규모)을 도입하였다.
    • 물은 한번 채운 후 재사용하고, 증발/낭비는 없다고 한다.
    • 172개의 20ft Fan으로 외벽 냉각 핀을 통해 물을 순환시킨다고 한다.
    • 전체 90% 이상 서버가 수랭식이고, 나머지는 공랭+백업 수랭으로 커버한다고 함.
      • 물 사용량을 최대한 줄이려고 한 구조인 듯 하다.

Vertiv가 공랭, 수랭 모두 리딩하는 기업인데, 요즘 Vertiv 주가가 상당하다. 그 이유 중에 하나가 이런 수랭식 데이터센터의 실현이 아닐까 싶은데, 누가 페어워터에 공급한건지는 불명.


본 글에 담긴 Claim격의 서술은 모두 제 개인의 의견일 뿐이며 아무런 대표성을 가지지 않습니다.

0개의 댓글