DeepSeek 쇼크로부터 우리가 얻어가야할 교훈들 + 반론

hyeok's Log·2025년 1월 28일

DataCenter

목록 보기
3/15
post-thumbnail

인텔 486을 설계했던, 지난달까지 인텔 CEO를 역임한 팻 겔싱어가 링크드인에서 이번 DeepSeek 쇼크에 대해 다음과 같은 글을 썼던데 상당히 인상적이라 이렇게 공유해보려고 함.

원문

Wisdom – Learning the lessons I thought I already knew

The response to DeepSeek has been fascinating to watch and I would suggest the response misses three important lessons that we have learned in the last five decades of computing.

First – Computing obeys the gas law. This means, it fills the available space as defined by available resources (capital, power, thermal budgets etc). As we saw in CMOS, PCs, multicore, virtualization, mobile and numerous others; making compute resources broadly available at radically lower price points, will drive an explosive expansion, not contraction, of the market. AI will be in everything going forward and today, it is orders of magnitude too expensive to realize that potential. I recall my first internet browser experience – WOW. And now – its every minute or second of everyday if you are a teenager. The market reaction is wrong, lowering the cost of AI will expand the market. Today I’m an nVidia and AI stock buyer and happy to benefit from lower prices.

Second – Engineering is about constraints. It is clear that the DeepSeek team had numerous constraints and found creative ways to deliver a world class solution in every respect at 10-50X lower costs. Export laws limited the available resources so, Chinese engineers needed to get creative and they did. They didn’t need $10B’s of hardware and the latest chips and a multi-$B training budget. One time years ago I was interviewing the famed (maybe the greatest) computer scientist of our age Donald Knuth. He described in detail how he did his best work when the resources were most severely limited and schedules most demanding. I considered that insight one of the most important of my engineering management career.

Third – Open wins. It has been disappointing to watch the foundational model research become more and more closed over the last few years. In this, I’m more aligned with Elon than Sam – we really want, nay need AI research to increase its openness. We need to know what the training datasets are, study the algorithms and introspect on correctness, ethics and implications. Having seen the power of Linux, Gcc, USB, Wifi and numerous other examples has made this clear to all students of computing history. Fighting the battles of legal, spectrum, engineering and adoption – open is never easy and consistently challenged by market forces. Open wins every time it is given a proper shot. AI is much too important for our future to allow a closed ecosystem to ever emerge as the one and only in this space.

DeepSeek is an incredible piece of engineering that will usher in greater adoption of AI. It will help reset the industry in its view of Open innovation. It took a highly constrained team from China to remind us all of these fundamental lessons of computing history.

국문

(translated by DeepSeek ㅎㅎ)
지혜 – 이미 알고 있다고 생각했던 교훈들을 다시 배우다

DeepSeek에 대한 반응을 지켜보는 것은 매우 흥미로웠고, 지난 50년간 컴퓨팅 역사에서 우리가 배운 세 가지 중요한 교훈이 반응에서 빠져있다고 생각합니다.

첫째 – 컴퓨팅은 기체 법칙을 따릅니다. 이는 자본, 전력, 열 예산 등과 같은 가용 자원에 의해 정의된 공간을 채운다는 것을 의미합니다. CMOS, PC, 멀티코어, 가상화, 모바일 등에서 보았듯이, 컴퓨팅 자원을 급격히 낮은 가격으로 널리 제공하면 시장의 폭발적인 확장이 일어납니다. AI는 앞으로 모든 것에 포함될 것이며, 현재는 그 잠재력을 실현하기에는 비용이 너무 높습니다. 저의 첫 인터넷 브라우저 경험을 떠올려보면 – 와우. 그리고 지금 – 10대라면 매분 매초 그 경험을 합니다. 시장의 반응은 잘못되었습니다. AI의 비용을 낮추면 시장이 확장될 것입니다. 오늘 저는 nVidia와 AI 관련 주식을 사고 있으며, 가격이 낮아지는 것을 기쁘게 생각합니다.

둘째 – 엔지니어링은 제약에 관한 것입니다. DeepSeek 팀이 수많은 제약을 가지고 있었음이 분명하며, 그들은 창의적인 방법으로 세계적 수준의 솔루션을 10-50배 낮은 비용으로 제공했습니다. 수출 규제로 인해 사용 가능한 자원이 제한되었기 때문에, 중국 엔지니어들은 창의력을 발휘해야 했고, 그렇게 했습니다. 그들에게는 100억 달러 규모의 하드웨어와 최신 칩, 수십억 달러 규모의 훈련 예산이 필요하지 않았습니다. 몇 년 전, 저는 우리 시대의 가장 위대한 컴퓨터 과학자 중 한 명인 도널드 크누스(Donald Knuth)를 인터뷰했을 때, 그는 자원이 가장 제한적이고 일정이 가장 빡빡할 때 최고의 작업을 했다고 자세히 설명했습니다. 저는 그 통찰력을 제 엔지니어링 관리 경력 중 가장 중요한 교훈 중 하나로 여깁니다.

셋째 – 개방성이 승리합니다. 지난 몇 년간 기본 모델 연구가 점점 더 폐쇄적으로 변해가는 것을 보는 것은 실망스러웠습니다. 이 점에서 저는 샘보다는 엘론과 더 공감합니다. 우리는 정말로 AI 연구가 더 개방적으로 이루어지기를 원하고, 아니 필요로 합니다. 우리는 훈련 데이터셋이 무엇인지 알고, 알고리즘을 연구하며, 정확성, 윤리, 그리고 함의를 성찰할 필요가 있습니다. 리눅스, Gcc, USB, 와이파이 등 수많은 예시를 통해 이 점은 컴퓨팅 역사를 공부하는 모든 이들에게 명확해졌습니다. 법적, 스펙트럼, 엔지니어링, 채택 등의 전투에서 – 개방성은 결코 쉽지 않으며 시장의 힘에 의해 지속적으로 도전받습니다. 하지만 개방성은 제대로 기회가 주어질 때마다 승리합니다. AI는 우리의 미래에 너무나 중요하기 때문에 폐쇄된 생태계가 이 분야에서 유일한 존재로 등장하는 것을 허용해서는 안 됩니다.

DeepSeek은 AI의 더 큰 채택을 이끌어낼 놀라운 엔지니어링 작품입니다. 이는 개방형 혁신에 대한 업계의 시각을 재설정하는 데 도움을 줄 것입니다. 중국의 강력한 제약을 가진 팀이 우리 모두에게 컴퓨팅 역사의 이러한 근본적인 교훈을 상기시켜준 것입니다.

내 생각

  • 일단 뭐 중국-native 기업에서 워낙 대단한 feature를 많이 내세운 서비스를 냈다보니 서방권 테크 기업 및 시장의 쇼크는 당분간은 어쩔 수 없을 듯
  • 근데 이게 과연 엔비디아를 비롯한 흔히 국내외 언론에서 말하는 "AI 반도체 기업"들에게 악재일까? 내 생각은 그렇진 않음. 팻이랑 얼추 비슷한 생각인데, DeepSeek의 등장은 결국 AI의 민주화를 의미한다고 봄. ChatGPT, 또는 그보다 몇년 앞서 Transformer가 등장한 이후 그간 정말 많은 학계, 업계, 심지어 일반 대중들까지 정말 많이 LLM을 논하곤 했지만 궁극적으로 그걸 실제로 production-level에서 개발하고 서비스하던 집단은 굉장히 극소수였음을 부정할 수 없다. 엔비디아가 백날 Hopper니, Blackwell이니 새로운 아키텍쳐를 홍보해봐야 사실 그걸 직접 대량으로 사들여서 AI를 제대로 서비스할 사람들은 그리 많지 않았다. 반도체 하나하나 가격은 워낙 비싼데 기업들 입장에선 일단 제대로된 모델 개발하는 것도 어려워, 심지어 수익성은 확실하지도 않아, 따라서 주저할 수 밖에 없었으리라.
  • 근데 DeepSeek는 이런 상황에 새로운 패러다임을 제시할 수 있어 보인다. 나는 오히려 이게 드디어 AI 반도체라고 사람들이 익히 부르는 고성능 하이엔드 디바이스들의 수요를 폭증시킬 수 있지 않을까 기대한다. OpenAI랑 엔비디아가 지난 몇년간 실증했던 것처럼, 일단 더 높은 메모리/인터커넥트 대역폭과 더 많은 트랜지스터, 초소형 공정을 앞세운 고성능 GPU는 분명 모델의 정확성과 성능을 개선하는데에 효과가 있다! DeepSeek는 경량성이 핵심이고, 뭐 여러 기사에서 H800을 2000개 정도 썼네 마네 말이 많은데, (만약 그들의 경량성 주장이 사실이란 가정하에) 사실 H800도 말이 그렇지 상당히 고가에 고성능 장비다 (당연히 HBM도 탑재함). 단지 대중 규제 때문에 H100을 못쓴 것일 뿐, 더 좋은 GPU를 쓰면 더 많은 feature를 용이하게 제공할 수 있음을 부정하기 어려울 것이다.
  • 내가 하고자 하는 말은, H100이고 H800이고가 중요하다기보단, 지금까지는 이걸 직접 서버에 꽂고 열심히 돌려서 돈 벌 일이 전세계적으로 극히 제한된 사람, 집단들만 있었다는 것이다. o3을 돌리려면 H100이 100대, R1을 돌리려면 H100 10대 필요하다고 해보자. 지금까진 폐쇄적으로 각자 LLM을 개발, 서비스해오던 100개 기업에서 100대의 H100을 구매해 총 10,000대가 팔렸다. 근데 이젠 대한민국의 모모기업에서도 복잡하게 머리 굴일 필요 없이 DeepSeek R1을 deploy해서 서비스할 수 있다. 이런 기업이 세계적으로 10,000개라고 치면, 이제 10,000 x 10 = 100,000대가 팔리는 것이다. 적어도 반도체를 파는 기업들 입장에선 더 좋은 신호일 수 있지 않을까 싶다.
  • 암튼, 내 생각은 오히려 많은 이들이 이야기하던 AI 시대가 이제 드디어 본격적으로 전세계 각지에서 일어날 수 있지 않을까 기대감이 든다는 것이고, 그건 결국 팻 형이 말한 것처럼 그간의 컴퓨팅 자원 확장 역사나 오픈 소스의 힘을 기억해보면 충분히 기대할만하다는 것이다. 그리고 대중 재제가 이런 일을 앞당겼을 수 있다고 생각하니까 참 재밌기도 하다.
  • 내 work과 커리어 관점에서 현재 이러한 흐름들 속에서 어떤 쪽으로 뻗어나갈지 계속 고민해봐야겠다. 난 AI의 민주화, 수요의 폭증이 실제로 온다면 오히려 data platform, storage & memory system 필드에선 더 호재가 아닐까 싶은데, 함 두고봐야겠다.

반론

하지만 상기 내용들은 모두 DeepSeek에서 주장한 비용 효율성이 사실이라는 가정 하에 유효한 내용들이다. 나는 LLM 쪽 전문이 아니라 이 부분에 대해 내 스스로 판단이 어려운데, 와중에 발견한 아래의 글이 눈에 띈다.

네이버 클라우드 이동수 이사 링크드인 글 中

Many news articles repeat DeepSeek’s claims that the V3 and R1 models are highly cost-effective for both training and inference. But is this true?

Regarding training costs, the reported $5.5 million figure is far from realistic. This is akin to claiming that new drug development is extremely cheap while ignoring all clinical trial expenses and considering only the pure cost of manufacturing the final drug.
DeepSeek’s training methodologies, as described in its paper, are indeed impressive and intriguing. Much like LLaMA models, DeepSeek has not only integrated prior efficiency-boosting techniques—such as FP8, speculative decoding, and optimized attention mechanisms—but has also meaningfully improved them. However, each optimization still comes at a high cost. Extensive GPU resources are required for search space exploration, hyperparameter tuning, and ablation studies.
Moreover, DeepSeek-R1 is not an "open-source" model but rather an "open-weight" model. Since its training data is not publicly available, no one outside DeepSeek truly knows how it was trained.

Inference costs are also significantly higher due to the model’s Mixture of Experts (MoE) architecture. For instance, pricing data from Together AI indicates that serving DeepSeek-V3 is even more expensive than serving the LLaMA 90B model. Given that only 37B parameters are actively used, this remains costly. DeepSeek-R1, which shares the same architecture as V3, is even more expensive. Engineers familiar with API pricing structures will recognize that reasoning-based models shift cost dynamics, as the decoding phase becomes much more expensive than the prefill phase. At present, only Chinese-backed cloud service providers offer low API costs for these models (how?? CCP-backed...?)

Additionally, MoE architectures are increasingly misaligned with how GPU technology is evolving. Expanding memory capacity is considerably more expensive than increasing computational power, and in many cases today, the number of GPUs required to serve a model is dictated by memory constraints rather than compute needs. While MoE reduces computational requirements, it does nothing to decrease memory demands. As highlighted in the original TPU research paper, "computation is almost free, whereas memory is truly expensive."
More experts with a deep understanding of DeepSeek’s costs should share their insights publicly. Otherwise, a few misleading claims can have damaging consequences for the broader AI community, as we've recently seen in stock market reactions.

(translated by ChatGPT 4o)

많은 뉴스 기사들은 DeepSeek이 V3 및 R1 모델이 훈련과 추론 모두에서 비용 효율적이라고 주장하는 내용을 그대로 반복하고 있다. 하지만 이는 사실일까?

보고된 550만 달러라는 수치는 현실과 거리가 멀다. 이는 마치 신약 개발이 극도로 저렴하다고 주장하면서 임상시험 비용은 완전히 무시한 채 최종 약품의 제조 원가만 고려하는 것과 같다.
DeepSeek의 논문에서 설명된 훈련 방법론은 확실히 인상적이고 흥미롭다. LLaMA 모델과 마찬가지로, DeepSeek은 FP8, 추측 디코딩(speculative decoding), 최적화된 어텐션 메커니즘과 같은 기존의 효율성 향상 기법을 통합했을 뿐만 아니라 이를 의미 있게 개선하기도 했다.
하지만 이러한 최적화 기법들도 여전히 높은 비용을 수반한다. 탐색 공간(search space) 탐색, 하이퍼파라미터 튜닝, 애블레이션 연구(특정 요소를 제거하여 성능을 분석하는 연구) 등에는 막대한 GPU 리소스가 필요하다.

또한 DeepSeek-R1은 "오픈소스" 모델이 아니라 "오픈 가중치(open-weight)" 모델이다. 훈련 데이터가 공개되지 않았기 때문에 DeepSeek 외부에서는 이 모델이 어떻게 훈련되었는지 아무도 알 수 없다.

DeepSeek의 Mixture of Experts (MoE) 아키텍처로 인해 추론 비용 또한 상당히 높다. 예를 들어, Together AI의 가격 데이터를 보면, DeepSeek-V3를 서비스하는 비용이 LLaMA 90B 모델보다도 더 비싸다.
사용되는 활성 파라미터 수가 37B에 불과하더라도 여전히 비용이 높다. DeepSeek-R1은 V3와 동일한 아키텍처를 사용하기 때문에 추론 비용이 더욱 증가한다.
API 가격 구조에 익숙한 엔지니어들은 이러한 모델이 비용 구조를 변화시키며, 특히 디코딩 단계가 프리필(prefill) 단계보다 훨씬 더 비싸진다는 점을 잘 알고 있을 것이다. 현재로서는 오직 중국이 지원하는 클라우드 서비스 제공업체들만이 이러한 모델에 대해 저렴한 API 비용을 제공하고 있다. (어떻게 가능할까? 중국 공산당(CCP)의 지원 때문...?)

또한, MoE 아키텍처는 점점 더 GPU 기술 발전 방향과 맞지 않게 변하고 있다. 메모리 용량 확장은 연산 능력 증가보다 훨씬 더 높은 비용이 든다. 현재 많은 경우, 모델을 서비스하기 위해 필요한 GPU의 개수는 연산 성능이 아니라 메모리 제한에 의해 결정된다.
MoE는 연산 요구량을 줄여주지만, 메모리 사용량을 줄이는 데는 아무런 도움이 되지 않는다. TPU 연구의 원래 논문에서도 강조했듯이, "연산은 거의 무료에 가깝지만, 메모리는 진정한 비용 부담이 된다."

DeepSeek의 비용 구조에 대한 깊은 이해를 가진 전문가들이 보다 공개적으로 의견을 공유해야 한다. 그렇지 않으면, 일부 잘못된 주장들이 인공지능(AI) 커뮤니티 전체에 부정적인 영향을 미칠 수 있으며, 최근 주식 시장의 반응에서도 이러한 위험성이 드러났다.

마무리 글: DeepSeek의 비용 효율성을 정확히 판단하기엔 아직 이른 감이 있는게 사실이고, 많은 업계 전문가들이 말하듯 분명 충분한 검증이 더 필요해보인다. 이와 별개로 하나 확실한건, 앞선 내 생각에 적은 것처럼, 앞으로 더 본격적인 AI 경쟁과 deployment가 전세계적으로 진행될 것임은 의심치 않는다. 이런 환경 속에서 AI의 가장 큰 병목 중 하나인 메모리 문제와 관련해 가장 큰 (국가 단위의) 플레이어 중 하나인 대한민국이 어떤 역할을 해야할지 기민하게 판단하고 미래의 니즈와 수요를 모두 충족시킬 수 있도록 노력해야할 것이라 생각한다. Will see!


본 글에 담긴 Claim격의 서술은 모두 제 개인의 의견일 뿐이며 아무런 대표성을 가지지 않습니다.

0개의 댓글