youkyoung823.log

youkyoung823.log

[논문 리뷰 | 정리 | 코드] BitNet

유경의 공부방·2024년 5월 9일

NLP Paper quantization

Paper

목록 보기

4/4

NLP 분야에서 매우 핫한 논문입니다! 이게 정말된다고? 정말 됩니다. 실제로 해봤거든요... 이게 되네...
(하지만 구현해보니 아직 문제도 있습니다. 나중에 기회가 된다면, 따로 만들어볼게요.)

1bit version과 1.58bit version이 있는데 한 번 풀어보겠습니다

[Ver1.] Wang, Hongyu, et al. "Bitnet: Scaling 1-bit transformers for large language models." arXiv preprint arXiv:2310.11453 (2023).

[Ver2.] Ma, Shuming, et al. "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits." arXiv preprint arXiv:2402.17764 (2024).

Microsoft에서 만든 논문입니다. ~~(도대체 뭘하려고)~~

BitNet

“저는 인간의 지능에 특별한 점이 없다고 생각합니다. 인식과 감정을 구성하는 뇌의 모든 뉴런은 이진법으로 작동합니다”
William Henry Gates Ⅲ

Introduction

BitNet

Model Training

Computational Efficiency

Comparison with FP16 Transformer

BitNet b1.58

Introduction

BitNet b1.58

Results

Code

gihub 찾아보면 여러 코드 있습니다! 아래는 구현할 때 참고할만 한 것!

아직 torch 내부의 문제로 인해 inference time, cpu, memory가 최적화되지는 않습니다...
아니 int8형태로 input과 행렬 연산을 수행할 수가 없음 ㅠㅠ float32형태로만 됩니다... ~~(물론 제가 아직 학사따리라... 잘 모르는 걸 수도 있습니다.)~~

그래서 그런지, 논문에서도 New hardware에 대해 언급하는게 아닌가 싶네요ㅠㅠ

이번 글은 전에 세미나 했던 ppt를 그대로 가져다 붙여봤는데 잘 보일까 싶네요!
열심히 읽어주셔서 감사합니다~

유경의 공부방

이전 포스트

[논문 리뷰 | 전문 해석] Panoptic Segmentation

0개의 댓글