NLP 분야에서 매우 핫한 논문입니다! 이게 정말된다고? 정말 됩니다. 실제로 해봤거든요... 이게 되네...
(하지만 구현해보니 아직 문제도 있습니다. 나중에 기회가 된다면, 따로 만들어볼게요.)
1bit version과 1.58bit version이 있는데 한 번 풀어보겠습니다
[Ver1.] Wang, Hongyu, et al. "Bitnet: Scaling 1-bit transformers for large language models." arXiv preprint arXiv:2310.11453 (2023).
[Ver2.] Ma, Shuming, et al. "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits." arXiv preprint arXiv:2402.17764 (2024).
Microsoft에서 만든 논문입니다. (도대체 뭘하려고)
“저는 인간의 지능에 특별한 점이 없다고 생각합니다. 인식과 감정을 구성하는 뇌의 모든 뉴런은 이진법으로 작동합니다”
William Henry Gates Ⅲ
gihub 찾아보면 여러 코드 있습니다! 아래는 구현할 때 참고할만 한 것!
아직 torch 내부의 문제로 인해 inference time, cpu, memory가 최적화되지는 않습니다...
아니 int8형태로 input과 행렬 연산을 수행할 수가 없음 ㅠㅠ float32형태로만 됩니다... (물론 제가 아직 학사따리라... 잘 모르는 걸 수도 있습니다.)
그래서 그런지, 논문에서도 New hardware에 대해 언급하는게 아닌가 싶네요ㅠㅠ
이번 글은 전에 세미나 했던 ppt를 그대로 가져다 붙여봤는데 잘 보일까 싶네요!
열심히 읽어주셔서 감사합니다~