CXL 메모리 통합 ASUS 2U 4-노드 서버 (ServeTheHome 리뷰)

hyeok's Log·2025년 6월 11일

DataCenter

목록 보기
7/15

본 글은 ServeTheHome의 06/09일자 포스트를 기반으로 작성하였음.

ASUS RS520QA-E13-RS8U: CXL 메모리 통합으로 진화한 2U 4-노드 서버

missing ASUS RS520QA E13 RS8U 2U 4N 서버 [출처]

서버 아키텍처 및 혁신 포인트

ASUS RS520QA-E13-RS8U는 2U 폼팩터에 4개의 노드를 담은 고밀도 서버로, 각 노드는 싱글 소켓 AMD EPYC 프로세서를 탑재함.

  • 기존 2U 4-노드 서버 디자인과 달리 이 시스템은 노드를 전면에서 탈착할 수 있도록 설계되어, 전면 콜드 통로에서 개별 노드 유지보수가 가능하다는 장점을 표방함.
    • 이때, 서버 후면에는 교체 가능한 구성 요소가 전원공급장치 (PSU) 정도 크기로 최소화되어 있으며, 노드의 I/O, BMC, Storage Bay는 모두 서버 전면에 배치되어 있음.
  • 이러한 전면 서비스형 설계는 데이터센터 운영 편의성을 높이는 동시에, 2U 섀시 내에 4개의 독립 노드를 효율적으로 구성/관리하게 해주는 혁신 포인트라고 소개하고 있음.
missing ASUS RS520QA-E13-RS8U의 전면 서비스형 설계 [출처] missing NIC, NVMe SSD 등을 탑재한 ASUS RS520QA-E13-RS8U의 전면부 [출처]
  • 각 노드는 최신 AMD EPYC 9004 Turin 계열 프로세서를 단일 소켓으로 사용하며, 최대 400W의 cTDP CPU까지 지원하도록 냉각 설계가 되어 있음.
  • 싱글 소켓당 최대 96-Core 프로세서를 사용함으로써, 이전 세대의 듀얼 소켓 시스템보다 높은 코어 밀도를 단일 소켓으로 구현했음.
    • 예를 들어, 이 서버는 4노드에 총 192코어(노드당 48코어 기준)를 제공할 수 있는데, 이는 듀얼 소켓 인텔 Xeon 기반 4노드 시스템의 총 코어 수를 단일 소켓 디자인으로 달성한 셈임.
    • 이는 곧, 듀얼 소켓 설계에서 발생하는 '첫 번째 CPU의 뜨거운 공기가 두 번째 CPU로 유입되는 현상'을 싱글 소켓 구성으로 제거함을 의미하고, 이는 결국 균일한 냉각 효과를 의미함.

CXL 메모리 확장 모듈과 메모리 확장 아키텍처

ASUS RS520QA-E13-RS8U의 가장 핵심적인 부분으로, 각 노드 메인보드 옆에는 별도의 CXL 메모리 확장 모듈이 후면에 장착되어 있으며, 이를 통해 노드당 메모리 슬롯을 크게 확장할 수 있음.

  • 기본적으로 AMD EPYC 프로세서는 12채널 DDR5 메모리 컨트롤러를 갖고 있어 노드 메인보드에는 12개의 DIMM 슬롯을 직접 연결할 수 있음. 그러나 2U 섀시에 4개의 Half-width 노드를 넣은 공간 제약상, 각 노드 메인보드에 12채널 듀얼 DIMM 구성 (2DPC, 채널당 2개 DIMM)을 위한 24개의 DIMM 슬롯을 모두 배치하는 것은 물리적으로 불가능함.
  • RS520QA-E13-RS8U는 이 한계를 Compute Express Link (CXL) 기반 메모리 확장으로 해결하였음.

노드 메인보드에는 채널당 1개의 DIMM씩 12개의 DDR5 DIMM을 장착하고, 부족한 메모리 용량은 CXL을 통해 추가 8개의 DIMM을 연결하는 방식

missing ASUS RS520QA-E13-RS8U의 후면에 위치한 CXL 메모리 확장 모듈 [출처]
  • 후면의 CXL 메모리 모듈은 노드당 두 장으로 구성되며, 각 모듈에는 Montage사 CXL 메모리 컨트롤러 2개와 DDR5 DIMM 슬롯 4개가 탑재될 수 있음.
    • 즉, 각 노드에 2개의 CXL 보드 × (컨트롤러 2개 + DIMM 4개)가 존재하여, 노드 하나당 총 8개의 추가 DIMM을 수용할 수 있음.
    • 이를 통해 메인보드 상의 12 DIMM과 합쳐 CPU 한 개당 최대 20개의 DIMM을 사용할 수 있게 되며, 2U 4-노드 섀시 내에서도 풍부한 메모리 용량 구성이 가능해짐.
      • 예를 들어 64GB 모듈을 사용한 경우, 노드당 직접 연결된 메모리 768GB (64GB×12)에 CXL 확장 메모리 512GB (64GB×8)를 더해 총 1.28TB의 메모리를 단일 소켓 시스템에서 구현할 수 있게 된 것임. 이는 128GB 이상의 대형 메모리 모듈을 사용하거나 2DPC 구성을 하지 않고도 얻은 용량으로, 새로운 메모리 확장 패러다임을 제시한다고 볼 수 있음.
  • 각 노드 메인보드 후면에는 전원 및 데이터 커넥터가 있어 섀시 뒷부분의 Interposer Board에 결합되는데, 이 보드에는 PCIe/CXL Retimer 칩셋이 자리잡고 있음.
    • Retimer는 메인보드에서 나온 PCIe 신호를 증폭/재생성하여 신호 품질을 유지해 주며, 리타이머 보드에서부터 실제 CXL 메모리 보드까지는 케이블 연결로 이루어짐.
    • 이 케이블 설계는 메인보드와 CXL 보드 사이에 위치한 냉각 Fan 블록을 피해 신호를 전달하기 위한 것으로, 고밀도 서버에서 냉각과 신호 무결성을 동시에 잡기 위한 독특한 방식이라고 함.
      • 결과적으로, 노드당 메모리 확장 보드는 후면 PSU 옆 공간에 효율적으로 배치되어 전원 커넥터와 케이블 하나로 간편히 탈부착 가능하며, 표준 PCIe CXL 인프라를 활용하면서도 데이터센터 친화적인 냉각/서비스 설계를 구현한 것이라고 볼 수 있음.
missing 서버 후면부에 위치한 메인보드 - CXL보드 간 연결을 담당하는 Retimer 보드의 모습 [출처]
은색 방열판 Heatsink로 두 개의 PCIe/CXL Retimer 칩셋을 덮어 고속 신호 처리 간 발열을 최소화함. 또한, 사진 중앙 부분의 연결부는 메인보드와 Retimer PCB 보드 간 연결부로, 여기서 전원 공급도 이뤄짐. Retimer 보드에서 뻗어 나가는 PCIe 케이블들이 이전 사진에 있는 CXL 메모리 보드로 이어지는데, 이때 공랭 냉각 Fan을 피해서 넘어가도록 되어 있음.

CXL 메모리 vs. 전통적 2DPC 및 듀얼 소켓 방식의 이점

CXL 메모리를 활용한 설계는 전통적인 메모리 확장 방식과 비교해 여러 가지 장점을 제공함.

  • (1) 2DPC (채널당 2 DIMM) 구성과 비교했을 때 메모리 속도 저하가 적음.
    • 일반적인 AMD EPYC 플랫폼에서 메모리 슬롯을 12개 채운 후 24개까지 늘리면 (=2DPC 구성) 메모리 클럭이 자동으로 하향 조정됨. 모든 24슬롯을 가득 채울 경우 더 큰 성능 저하가 발생하는데, CXL 메모리를 사용하면 로컬 DDR5 메모리는 1DPC 속도를 그대로 유지하면서 용량을 늘릴 수 있다고 함.

      CXL 연구를 진행할 때 개인적으로 이런 부가 효과도 있지 않을까?라는 생각을 항상 해왔던 기억이 남. 허나, 이런 부분을 시원하게 긁어주는 Document를 잘 찾기 어려웠는데, 본 STH 글에서 이런 내용을 확인할 수 있어 상당히 흥미로웠음 (사실 여부와 별개로).

    • CXL을 통해 용량을 늘릴 때, 추가된 메모리는 CPU의 직접 메모리 채널 대역폭을 소모하지 않고 별도의 경로로 대역폭을 제공하기 때문에, 총 메모리 대역폭의 증가 효과도 있다고 함.
    • 다만 CXL 메모리는 PCIe 경유 특성상 Latency가 증가하여 접근 속도가 다소 느리므로, 고속의 로컬 메모리와 대용량 CXL 메모리를 조합해 속도와 용량의 균형을 맞추는 것이 핵심이라고 강조하고 있음.
missing 서버 후면부에 위치한 메인보드 - CXL보드 간 연결을 담당하는 Retimer 보드의 모습 [출처]
은색 방열판 Heatsink로 두 개의 PCIe/CXL Retimer 칩셋을 덮어 고속 신호 처리 간 발열을 최소화함. 또한, 사진 중앙 부분의 연결부는 메인보드와 Retimer PCB 보드 간 연결부로, 여기서 전원 공급도 이뤄짐. Retimer 보드에서 뻗어 나가는 PCIe 케이블들이 이전 사진에 있는 CXL 메모리 보드로 이어지는데, 이때 공랭 냉각 Fan을 피해서 넘어가도록 되어 있음.
  • (2) 듀얼 소켓 구성과 비교한 장점
    • 기존에는 메모리 용량을 크게 늘리려면 두 번째 CPU 소켓을 추가하고 거기에 메모리를 장착해 NUMA 아키텍쳐를 구성하는 방법이 흔했음.
    • 그러나 추가 CPU는 비용과 전력 소모가 크고, 활용되지 않는 경우에도 차지하는 자원이 많음.
      • 이번 ASUS 서버의 접근법은, 두 번째 CPU 없이도 메모리만 추가하는 효과를 CXL로 구현하여 비용과 전력 효율을 높였음. CXL 메모리 확장은 추가 소켓을 통해 메모리 채널을 얻는 것과 유사한 효과를 내면서도, CPU당 메모리 용량 밀도를 크게 높여줄 수 있는 것임.

        개인적으로 이부분도 CXL 컨셉의 큰 장점 중 하나라고 생각해왔는데, ASUS에서도 이런 측면을 전면에 내세워 프로모팅하려고 하는듯함. 물론, 위에서도 써놓은 것처럼, 저런 '장점'이 실제 Deployment 시나리오에서도 먹힐 수 있는 장점인가, 는 다른 얘기가 되겠지만.

      • RS520QA-E13-RS8U의 경우 노드 하나에 메모리 8슬롯을 CXL로 더 추가함으로써, 기존에는 듀얼 소켓이 필요했던 메모리 용량을 싱글 소켓으로 지원하게 되었음.
      • 반면, 이러한 설계로 인해 노드당 장착 가능한 스토리지/확장 카드 수가 제한되는 트레이드오프도 있음 (당연하게도). 예를 들어 이 서버는 노드당 2개의 2.5인치 NVMe SSD 베이와 1개의 로우프로파일 PCIe Gen5 x16 슬롯, 1개의 OCP NIC 3.0 슬롯만 제공하므로, 대용량 스토리지나 다수의 가속기를 장착하는 용도로는 최적이 아님. 메모리 밀도를 극대화하는 대신 I/O 확장성은 다소 양보한 디자인인 셈. 따라서 이 시스템은 데이터 저장이나 GPU 가속보다 대규모 메모리 활용이 중요한 가상화, 인메모리 데이터베이스, HPC 일부 분야 등을 주로 타겟한다고 함.

고밀도(2U4N) 환경을 위한 냉각 및 전력 설계

본 서버는 2U 4-노드라는 높은 밀도를 유지하면서도 발열과 전력 공급을 안정적으로 다루기 위한 세심한 설계가 돋보임.

  • 각 노드에는 폭 전체를 덮는 대형 히트싱크와 8개의 히트파이프가 장착되어, 최대 400W에 달하는 AMD EPYC 프로세서의 열을 효율적으로 분산시킴.
  • 프로세서의 열은 전면에서 후면으로 흐르는 강력한 쿨링 팬 모듈에 의해 배출되며, 이러한 공기 흐름을 방해하지 않도록 앞서 언급했듯 CXL 메모리 보드 연결에 케이블식 인터커넥트를 사용한 것임.
  • 일반적으로 2U 멀티노드 서버에서는 두 개의 CPU를 직렬로 배치할 경우 뒤쪽 CPU가 앞쪽 CPU의 뜨거운 공기를 받아 냉각 효율이 떨어지는 문제가 있는데, RS520QA-E13-RS8U는 싱글 소켓 노드 구조로 이러한 문제를 원천 제거함.
    • 그 결과 각 노드는 인접한 다른 CPU의 열 간섭 없이 일관된 냉각 성능을 얻을 수 있으며, 이는 고성능 코어를 가동할 때 쓰로틀링 없이 안정적 성능을 내는 기반이 됨.
missing 서버 중앙부에 위치한 대형 Heatsink와 8개의 Heatpipe [출처] missing ASUS RS520QA-E13-RS8U는 2U 4노드 설계임에도 열과 전력의 영향을 거의 받지 않고, 싱글 노드 수준의 CPU 성능을 제공함 [출처]

사용자 입장에서,,,

운영체제 상에서 볼 때, 각 노드의 메모리는 NUMA 구조로 나뉘어 표시됨.

  • 예를 들어 앞서 언급한 1.28TB 메모리 구성의 경우, 노드당 CPU에 직접 연결된 768GB 메모리는 NUMA 노드 0으로, CXL로 확장된 512GB 메모리는 별도의 NUMA 노드 1로 인식됨.
  • NUMA 노드 1에는 CPU 코어가 할당되지 않은 메모리 전용 노드로 나타나며, 이는 마치 듀얼 소켓 서버에서 한 소켓의 메모리에 다른 소켓 CPU가 접근하는 원격 메모리 액세스와 유사한 형태임.
  • 따라서 App이 CXL 메모리에 접근할 때는 로컬 메모리에 비해 약간의 추가 레이턴시가 발생하며, 이 레이턴시는 일반적인 NUMA 간 메모리 접근 지연과 비슷한 수준으로 관측된다고 함.

그간 학계에서 흔히 상정했던 CXL 메모리 탑재 시나리오를 그대로 계승했다고 보면 될듯. 개인적으로 CMM-D를 탑재하고 CPU-less NUMA Node에 전용 할당해놓고 C++로 대충 만든 Benchmark을 해당 노드에 Bound시켜서 성능을 재본 경험이 있는데, 그때는 사실 성능이 생각만치 이쁘게 나오진 않았었음 (= 흔히들 학계에서 상정하는 CXL Memory Latency와는 상이한 수준). 근데 그 서버는 CPU가 CXL를 서포트하기만 할 뿐 그 외적으론 HW/SW적으로 최적 셋업과는 거리가 꽤 먼 셋업이었음. 근데 이 ASUS 서버 같은 경우엔 얼추 성능을 고려해서 각잡고 만들어진 것으로 보임. 이 경우 CPU-less NUMA 셋업은 똑같은데 성능이 어떻게 나올지 개인적으로 궁금함.

missing 시스템에선 이렇게 보인다고 함 [출처]
  • 관리 소프트웨어나 BMC 측면에서는 이러한 CXL 메모리 장치를 인식하고 모니터링할 수 있는데, ASUS의 ASMB12-iKVM 관리 웹 인터페이스에서도 Montage CXL 컨트롤러들이 장치로 표시되고 온도 및 전력 등의 텔레메트리 데이터를 읽어올 수 있다고 함. 이는 관리 측면에서도 CXL 메모리가 통합된 환경을 표준 BMC 기능으로 커버하고 있음을 보여줌.

결론: CXL 시대로의 전환 예시?

ASUS RS520QA-E13-RS8U 2U 4-노드 서버는 CXL 메모리 확장을 각잡고 준비한 고밀도 서버 디자인을 보여준 점이 큰 의미가 있다고 생각함. 싱글 소켓 AMD EPYC 프로세서의 장점을 극대화하면서도, 전통적 방식으로는 구현하기 어려웠던 대용량 메모리를 CXL로 유연하게 확장한 점이 핵심이라고 볼 수 있음. 이러한 설계를 통해 CPU 대비 메모리 비율을 높여 다중 VM, 빅데이터, 인메모리 컴퓨팅 환경 등 Memory-Intensive 작업에 적합한 플랫폼을 제공하고자 하였음. 결국, 전통적인 “메모리를 늘리려면 CPU 소켓을 추가하라”는 공식을 깨고, CXL로 메모리만을 확장하는 접근법을 실질적으로 상업화한 선구자적 역할을 하게 될 것으로 보이고, 만약 ASUS의 이 창의적인 실험이 성공한다면? 그러면 CXL 기반 메모리 확장으로 본격적인 패러다임 Shift의 시작이 되지 않을까 조심스레 생각해봄.


본 글에 담긴 Claim격의 서술은 모두 제 개인의 의견일 뿐이며 아무런 대표성을 가지지 않습니다.

0개의 댓글