[Daily report] 26-05-26

kiteday·3일 전

Daily report

목록 보기
69/69
  • LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation
    이 논문이 언급하고 있는 주요점은 크게 3가지로 나눌 수 있다.
    1. NVFP4 연산
      4비트로 데이터가 표현되기 때문에 기존의 FP8, FP16 등보다 더 많은 분량의 데이터를 주고받을 수 있는 FP4를 기반으로 해서 GPU의 데이터 통신 부담을 줄였다. 이를 함께 보정하는 연산을 사용하여 정밀도를 높이는 NVFP4를 사용하였다.
    2. Sequence Parallel 연산
      노이즈와 타켓 데이터를 하나의 시퀀스로 보던 기존 연산과 달리 이를 병렬로 놓고 보아 특정 GPU에 VRAM 사용이 가중되는 것을 막았다. 또한 데이터 단위별로 잘라서 연산 가능한 장점이 있다.
    3. LoRA 기반 이미지 연산
      기존 디퓨전 모델 연산을 경량화 할 수 있는 LoRA를 사용하였다.
      여기서 아예 신설된 개념은 하나도 없지만 기존에 있던 것을 잘 적재적소로 활용하고, 실험을 통해 이를 검증한 것이 바로 이 논문의 의의인 듯 싶다. 이런 연구를 볼 때마다 창의력은 무에서 만들어지는 게 아니라 통찰에서 비롯된다는 사실을 다시 한 번 상기하게 된다.

  • Project Glasswing: An initial update
    4월에 공개된 Claude Muthos Preview 모델에 대한 글이다. 해당 모델은 공개된 소프트웨어에서 취약점을 자율적으로 찾는 사이버 보안형 모델로 SWE-bench Verified 93.9%, SWE-bench Pro 77.8%, Terminal-Bench 2.0 82.0%, USAMO 2026 97.6% 등 인상적인 벤치마크 점수를 보였다고 한다. 일반 claude.ai에 공개되지는 않았으며 크게 1. Antropic 자체 2.Project Glasswing의 약 50개 파트너 조직 (구글, 마이크로소프트, 애플 등) 3. 벤치마크 운영 팀 등 외부 파트너들만 선제적으로 사용했다고 한다.
    위 문서는 이 모델의 첫 진척보고서이다. 주장하기로는 버그 발견 속도가 10배 정도 빨라졌다고 한다. Mythos Preview로 1,000개 이상의 오픈소스 프로젝트를 스캔했고, 총 23,019건의 취약점 중 6,202건이 고위험·치명적으로 추정됐다고 주장하고 있다.
    하지만 이런 빠른 탐색과 반대로 버그 수정은 치명적인 경우 평균 2주의 패치가 걸리기 때문에 수정 속도가 탐색 속도를 못쫒아간다고 한다.
    역시 돌고돌아 중요한 것은 기본기인 듯 싶다. 문제 리포트를 읽었을 때 바로 어떤 종류의 취약점인지 알 수 있는 판단력과 이를 처리할 수 있는 두 기본기를 근간으로 한 능력이 역시 중요한 듯 싶다.
  • DeepSeek's 10 trillion USD grand strategy
    - MLA (Multi-Head Latent Attention) : 기존에는 LLM의 각각의 어텐션 헤드에 KV값을 가지고 있어야 했지만 Shared Latent Vector를 이용해 전역적인 KV 값을 하나만 가지고 있으므로서 엄청난 문맥을 효율적으로 저장할 수 있게 된다. 기존 stable diffusion 방식과 비교하자면 SDM은 latent vector 공간 안에서는 연산만하고 마지막에 복원되어 결과를 아는 방식이라면 (이미지이기 때문에) 연산 순간에 복원되는데 MLA는 어텐션의 가중치를 W랑 곱해서 미리 absorb 하는 전략을 사용한다고 한다.
    제미나이의 요약에 따르면 "Stable Diffusion은 이미지 연산이 너무 무거워서 이미지 자체를 잠재 공간으로 보낸 것이고, MLA는 LLM 문맥이 길어질 때 생기는 KV 메모리 폭발을 막기 위해 어텐션 내부의 KV 행렬만 콕 집어 잠재 벡터로 조진 것"이라고 한다.

    • 쉽게말해 저장은 전역으로 하고 추론 시에는 각자 해석하는(Decompress) 방식을 사용한다.
  • 다시 본론으로 돌아와 MLA를 이용해 KV 대비 90% 캐시를 줄였다.

    (이후 추가 정리 예정)


    지난 해 Microsoft AI 리포트를 읽다가 개발도상국일수록 DeepSeek 모델 이용 비율이 높다는 것을 알게 되었었다. (중국은 말해뭐해 너무나 당연한 이야기이며, 인도, 심지어 아프리카 까지 여러 나라가 생각보다 더 높은 비율로 DeepSeek 모델을 이용했다. 가장 큰 원인은 비용일 것이다.) DeepSeek가 오픈소스로 모든 걸 공개하는 동시에 빠른 성장을 하는 것은 굉장히 고단수 전략이라고 본다. 개별 연구실에서는 아무리 제미나이, 지피티가 좋은 걸 알아도 실제 모델 연구에서 쓸 수 있는 것은 공개된 모델이기 때문에 이전에 엔비디아가 CUDA로 업계 탑이 된 것처럼 같은 방식을 노리는 게 아닐까 하는 생각도 든다.
    이러한 배경과 함께 생각해보면 정말 미국 빅테크를 위협할 수 있는 상대국은 중국 빅테크 뿐인가라는 생각이 든다. 일단 논문만 봐도 중국인 저자가 없는 논문을 찾는 것 부터 어려우니... 한국이 어떤 생존 전략으로 헤쳐나갈 수 있을지 솔직히 잘 모르겠다. (그 전에 내 앞길부터..)


여전히 고민이 끊이지 않는다.

profile
공부

0개의 댓글