Llava2 rtx3060에서 구동하기

JongHyeon Park·2024년 3월 13일

LLM

목록 보기

1/4

LLava official : https://github.com/haotian-liu/LLaVA

기존에 LLava를 구동하는 가이드를 따라해보면 RTX3060 에서 절대 가동할 수 없다.
그래픽카드 메모리 용량을 그나마 최소한으로 이용하기 위해서는 4bit 로드를 진행하는것이 좋다.
7b 는 조금 부족해서 13b기준이다. 가동방법은 다음과 같다.

python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path liuhaotian/llava-v1.5-13b --load-4bit

아래는 전체 서비스 구동을 위한 명령어를 간략화 한것이다.

다음은 제시된 순서대로 llava 서비스를 구동하는 방법에 대한 설명입니다:

콘트롤러 가동: 첫 번째 단계에서는 llava 서비스의 중앙 제어 단위인 콘트롤러를 가동합니다. 콘트롤러는 다른 서비스 컴포넌트들이 통신할 수 있도록 중앙에서 조정하는 역할을 합니다. 여기서는 호스트를 0.0.0.0로 설정하여 모든 네트워크 인터페이스에서 접근 가능하도록 하고, 포트 10000에서 서비스를 제공합니다.

python -m llava.serve.controller --host 0.0.0.0 --port 10000

그래디오 웹서비스 가동: 이 단계에서는 Gradio를 이용하여 llava 모델의 웹 인터페이스를 제공하는 서버를 가동합니다. 이 서버는 콘트롤러와 통신하여 사용자의 요청을 모델로 전달하고, 모델의 출력을 사용자에게 보여줍니다. 여기서는 콘트롤러의 주소를 http://localhost:10000로 지정하여 연결합니다.

python -m llava.serve.gradio_web_server --controller http://localhost:10000

모델 가동: 마지막 단계에서는 llava 모델을 실행하는 워커를 가동합니다. 이 워커는 실제로 사용자의 입력에 대한 처리를 담당하며, 콘트롤러와 통신하여 작업을 수행합니다. 여기서는 호스트를 0.0.0.0로 설정하고, 포트 40000에서 서비스를 제공합니다. 또한, 워커의 주소, 콘트롤러의 주소, 모델의 경로 및 모델을 4비트로 로드하는 옵션을 지정합니다.

python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path liuhaotian/llava-v1.5-13b --load-4bit

이 순서대로 서비스를 가동하면, 사용자는 그래디오 웹 인터페이스를 통해 llava 모델에 접근하여 입력을 제공하고, 모델의 출력을 받아볼 수 있습니다. 각 단계에서 지정된 설정은 환경에 따라 조정할 수 있으며, 필요에 따라 추가적인 옵션을 사용할 수도 있습니다.

JongHyeon Park

다음 포스트

Llava2 rtx3060에서 구동하기

LLM

MongoDB Atlas 의 Vector similarity search

0개의 댓글