로컬 LLM 사용하기

yun·2024년 9월 6일

LLM

✅ LLM이란?

LLM은 "Large Language Model"의 약자로 대규모 언어 모델을 의미한다.
LLM은 인공지능 기술 중 하나로 대규모 데이터셋을 기반으로 훈련되어 자연어 처리 작업을 수행할 수 있는 모델이다.
인간 언어의 복잡한 패턴을 학습하여 텍스트 생성, 번역, 요약, 질문 응답 등 다양한 언어 관련 작업을 수행할 수 있다.

✅ LLM을 이용한 챗봇

LLM을 이용한 챗봇(챗GPT 등)은 학습, 문제 해결, 정보 탐색, 단순 반복작업 등에 매우 효과적이다.

💡 ChatGPT의 문제점

개인정보 유출 문제
GPT-4o와 같은 폐쇄형 LLM의 경우 내가 물어보는 질문, 답변 등이 해당 회사 서버에 저장되기 때문에 정보 유출과 같은 개인정보 문제가 생길 수 있다.

💡 보안 문제 해결 방안

하지만 LLM을 활용했을 때의 생산성 증가가 막강하기 때문에 기업들은 LLM의 데이터 유출과 같은 보안 문제를 해결해야 한다.

오픈소스 LLM 을 온-프레미스 방식으로 사용하자!

오픈소스 LLM을 온프레미스 방식으로 사용해 데이터를 외부 서버로 보내지 않고 보안을 강화할 수 있다.

온프레미스 LLM이란?
기업이 자체적으로 운영하는 서버(물리)에 설치한 LLM

✅ 오픈소스 LLM

OpenAI 의 GPT 나 Google 의 Gemini 같은 폐쇄형 LLM 과 다르게, LLM 모델 자체가 오픈되어있는 경우

llama3, phi3, gemma 등이 해당

내 컴퓨터에 다운로드 받아 사용할 수 있기 때문에 내 개인정보가 다른 컴퓨터로 이동하지 않게 만들 수 있다!

💡 오픈소스 LLM을 사용하기에 앞서

오픈소스 LLM을 사용해보기 위해 가장 중요한 건 컴퓨터의 용량이다!
gpt-4o 와 유사한 성능을 보이는 llama3.1-405B 의 경우 그대로 실행할려면 몇백GB 의 VRAM 이 필요하다.

VRAM

VRAM은 Video RAM으로 그래픽 카드에서 사용하는 램. 일반적인 컴퓨터에서는 RAM 과 별도로 운영되며 그래픽카드에 포함되어있다.

GTX 4090 의 경우 24GB 의 VRAM 을 가지고 있다.
평범한 그래픽 카드는 4GB ~ 12GB 정도
- 3060 3070 3080 4060
빅테크에서 하도 많이 사가서 품귀현상을 일으킨다는 Nvidia 의 A100 (데이터센터용 그래픽카드) 은 40GB/80GB 의 VRAM 을 가지고 있다.
몇백GB 단위의 모델을 로드하려면 데이터센터 전용 그래픽카드를 이용해서 VRAM 을 연결해줘야한다.

yun

이전 포스트

RESTful API와 JSON

다음 포스트