[LLM]qwen2 gguf 모델 버그

김준기·2024년 6월 15일
1

qwen2의 gguf 모델을 사용해보고 있었는데, 데모 사이트의 결과와 매우 다른 헛소리를 내뱉는 문제가 있었다.

찾아보니 llama.cpp에서 -fa 플래그를 전달 하면 해결할 수 있다고 한다.

lm-studio를 사용할 경우엔 Model InitializationFlash Attention을 활성화 해주면 된다.

profile
코딩 잘하고 싶은 백엔드 개발자

0개의 댓글