qwen2의 gguf 모델을 사용해보고 있었는데, 데모 사이트의 결과와 매우 다른 헛소리를 내뱉는 문제가 있었다.
찾아보니 llama.cpp에서 -fa 플래그를 전달 하면 해결할 수 있다고 한다.
-fa
lm-studio를 사용할 경우엔 Model Initialization의 Flash Attention을 활성화 해주면 된다.
Model Initialization
Flash Attention