
나는 회사에서 첨단 GPU 활용 지원 사업에서 B200 \* 8 개 서버를 2개를 사용할 수 있게 되었다. 이번 목표는 대규모 GPU 서버 접속 문제와 마지막에는 버티컬 AI Corpus pretrain 을 성공시키는 것이다.이번 사업에 클라우드 업체는 NHN 인 듯

영롱한 자태를 보았다. $180$ GiB가 16개 있다.총 $2.8$ TiB 이다.내 인생에서 이렇게 많은 GPU를 언제 또 만져볼 수 있을까. 영광이다.이제 부터 어떻게 분산학습을 성공시켰는지 적어보려고 한다.코드는 이미 있었고, 돌리기만 하면 되었었다.다만, 몇가지