네트워크 컨설팅 프로젝트 (2) - AI 학습을 위한 RDMA 네트워크

송주환·2024년 5월 17일
0
post-thumbnail

들어가며

지난 달, 어느 정도 규모가 있는 회사로부터 AI 학습을 위한 클러스터 구축에 대한 기술 컨설팅을 진행하였다.
비밀 유지를 위해 자세한 내용을 밝힐 수는 없지만, NVLink를 사용한, 상당히 큰 규모의 시스템을 구축하는 프로젝트였다.

해당 프로젝트에서 내가 맡은 역할은 하드웨어 발주와 실제 구축에 대한 기술적인 조언을 제공하는 일이었는데, 대규모 클러스터를 이용한 AI 학습이 목적인 만큼, RDMA를 이용한 네트워크 구축 가이드에 많은 비중을 할애하였다.

작업 배경

고객사는 대부분의 사람들이 이름만 들어도 알 회사이며, 많은 사람들에게 대국민 서비스를 제공하는 회사이다.
최근의 많은 기업들과 마찬가지로 AI 역량을 내재화하고자 투자를 진행중이며, AI 학습용 클러스터 구축은 그 중 하나의 아젠다였다.
물론, 장비 구매와 구축에 큰 비용이 들어가는 만큼 중요도가 상당히 높은 프로젝트일 것으로 생각되며, 고객의 요구사항이 명확하고, SOTA 기술을 다루기 때문에 고객의 요구사항을 만족시킬 수 있을 정도로 퀄리티 있는 산출물을 제공하는 것에 초점을 맞추었다.

전체 아키텍처 디자인

(비밀 유지를 위해 생략됨)

Decision Points

  • 고객이 이 프로젝트를 통해 달성하고자 하는 목표는 무엇인가?
    상당한 비용을 투자하는 만큼, 중요한 비즈니스 목표가 있을 것으로 판단되었고, 프로젝트 리더와 현장 인터뷰 (및 Knowledge Transfer)를 진행하면서 비즈니스 목표를 확인하는 것에 중점을 두었다.

  • 목표를 달성하는 것에 필요한 기술 요소는 무엇인가?
    비즈니스 목표를 확인한 다음에는, 해당 목표를 달성하기 위해 필요한 기술 요소와 스택을 확인하였다. 그 중에서 고객에게 반드시 필요한 아이템을 취사 선택하여, 추후 도입 시 적용할 수 있도록 자세한 기술 가이드를 제공하였다.

  • 현재 환경의 제약사항은 무엇이며, 어떻게 개선할 수 있는가?
    고객은 현 시점의 병목 포인트였던 네트워크와 공유 스토리지를 재구축하는 계획을 가지고 있었고, 분석 자료를 검토한 뒤 합당하다고 판단하여 그대로 진행하였다.

Project Tasks

이번 프로젝트에서 내가 진행한 태스크의 목록은 다음과 같다

  • 하드웨어 견적 타당성 검토
  • 하드웨어 견적 비용 절감을 위한 조언
  • 공유 스토리지 하드웨어 구성 결정
  • RDMA를 사용하는 고성능, 고대역폭 네트워크 디자인
  • AI 학습용 서버의 하드웨어 아키텍처/구성 최적화 가이드라인 제공
  • RDMA 네트워크 및 NVLink 클러스터 구축 가이드라인 제공

Lessons and Learned

유사 도메인에 있다 하더라도, 다른 도메인에서 신뢰할 수 있는 전문가를 찾는 일이 생각보다 쉽지 않다는 것을 배울 수 있었다.
사람의 신뢰도를 평가할 수 있는 도메인 지식이 없다면, 그 사람을 어떤 방법으로 평가할 수 있을까? 객관적으로 '괜찮은' 사람과 만날 수 있는 기회를 어떻게 확보해야 할까?

이 질문에 정답은 없겠지만, 이것이 IT 컨설팅 전문 기업들이 가치를 가지는 지점이 아닐까 생각해 본다.
최소한 기업은 기존의 레퍼런스를 가지고 있고, 계약에 따른 법적 책임을 질 수 있으니까.

마치며

비록 개인적으로 프리랜서 업무에 투입할 수 있는 시간이 많지 않아, 실제 구축에 참여하지는 못했지만, 이번 프로젝트를 진행하면서 그간 알고 있던 지식들을 좀 더 실제 응용에 맞춰 다듬고 발전시킬 수 있었다.
또한, 뛰어난 분과 잠시 같이 일할 수 있는 기회를 얻은 것만으로도 충분한 가치가 있었다고 생각한다.

profile
Virtualization / Network / Storage / Server Hardware and.. Linux

0개의 댓글