DeepSeek's 10 trillion USD grand strategy
- MLA (Multi-Head Latent Attention) : 기존에는 LLM의 각각의 어텐션 헤드에 KV값을 가지고 있어야 했지만 Shared Latent Vector를 이용해 전역적인 KV 값을 하나만 가지고 있으므로서 엄청난 문맥을 효율적으로 저장할 수 있게 된다. 기존 stable diffusion 방식과 비교하자면 SDM은 latent vector 공간 안에서는 연산만하고 마지막에 복원되어 결과를 아는 방식이라면 (이미지이기 때문에) 연산 순간에 복원되는데 MLA는 어텐션의 가중치를 W랑 곱해서 미리 absorb 하는 전략을 사용한다고 한다.
제미나이의 요약에 따르면 "Stable Diffusion은 이미지 연산이 너무 무거워서 이미지 자체를 잠재 공간으로 보낸 것이고, MLA는 LLM 문맥이 길어질 때 생기는 KV 메모리 폭발을 막기 위해 어텐션 내부의 KV 행렬만 콕 집어 잠재 벡터로 조진 것"이라고 한다.
다시 본론으로 돌아와 MLA를 이용해 KV 대비 90% 캐시를 줄였다.
(이후 추가 정리 예정)
지난 해 Microsoft AI 리포트를 읽다가 개발도상국일수록 DeepSeek 모델 이용 비율이 높다는 것을 알게 되었었다. (중국은 말해뭐해 너무나 당연한 이야기이며, 인도, 심지어 아프리카 까지 여러 나라가 생각보다 더 높은 비율로 DeepSeek 모델을 이용했다. 가장 큰 원인은 비용일 것이다.) DeepSeek가 오픈소스로 모든 걸 공개하는 동시에 빠른 성장을 하는 것은 굉장히 고단수 전략이라고 본다. 개별 연구실에서는 아무리 제미나이, 지피티가 좋은 걸 알아도 실제 모델 연구에서 쓸 수 있는 것은 공개된 모델이기 때문에 이전에 엔비디아가 CUDA로 업계 탑이 된 것처럼 같은 방식을 노리는 게 아닐까 하는 생각도 든다.
이러한 배경과 함께 생각해보면 정말 미국 빅테크를 위협할 수 있는 상대국은 중국 빅테크 뿐인가라는 생각이 든다. 일단 논문만 봐도 중국인 저자가 없는 논문을 찾는 것 부터 어려우니... 한국이 어떤 생존 전략으로 헤쳐나갈 수 있을지 솔직히 잘 모르겠다. (그 전에 내 앞길부터..)
여전히 고민이 끊이지 않는다.