로컬LLM을 코딩 에이전트로 사용하기1

Joowon Jang·2026년 3월 19일

로컬LLM

목록 보기
1/1

1편은 LLM 관련 개념정리
Ollama 활용은 2편에서 다룸

요즘은 개발을 할 때 코드를 직접 작성하는 시간은 정말 거의 없는 것 같다...
그만큼 AI와 코딩 agent들이 너무 발전했고, 하나부터 열까지 직접 만들던 재미는 사라져버렸다🥲

그래도 편리하고 개발 속도가 말도 안되게 빨라지기 때문에 최근에는 Claude Code, Codex, Antigravity 등 여러 AI Agent를 사용하지만, 높은 성능의 모델을 사용할수록 토큰 사용량이 많아져 구독료가 부담이 된다...

사용량이 부족해서 난감해 하던 중...
최근 핫한 OpenClaw에 대한 글들을 보다가 로컬LLM에 연결해서 무료로 OpenClaw를 사용하는 것을 발견!

그럼 로컬LLM을 코딩 에이전트로도 쓸 수 있을까...?!

결론부터 말하자면 가능하다.

좋은 GPU를 가지고 있다면 충분히 좋은 선택지가 될 것 같다.
(VRAM이 큰 GPU 혹은 용량이 큰 통합 메모리(RAM)를 사용하는 Mac 등)

평소에 컴퓨터 부품에 대해서도 관심이 많았기 때문에, 로컬LLM을 직접 PC에서 돌려보면서 최근에 가장 큰 재미를 느꼈던 것 같다.

알아본 내용들을 정리해보자.


로컬LLM (Local LLM)

말 그대로 내 컴퓨터에서 직접 실행하는 대형 언어 모델
보통 우리가 쓰는 ChatGPT 같은 서비스는 클라우드에서 돌아가지만, 로컬 LLM은 인터넷 없이도 내 환경에서 동작할 수 있다.

특히, 보안에 민감한 프로젝트에서도 클라우드에 소스를 노출하지 않고 AI 에이전트를 사용한 개발 속도의 향상이라는 이점을 가져갈 수 있다.
좋은 GPU만 보유하고 있다면 API 호출 비용이 들지 않는다는 장점도 있다. (Claude Code는 진짜 너무 비쌈;;)

로컬 모델은 어디서 어떻게 돌릴까?

우선, 로컬 환경에서 LLM을 구동하여 chatGPT, Claude처럼 api요청(프롬프트 입력)을 받아 응답을 하기 위해서는 보통 아래와 같은 도구들을 사용한다.

  • Ollama
  • LM Studio
  • oMLX(Mac 전용)
  • llama.cpp

Ollama, LM Studio 등은 llama.cpp를 기반으로 동작하기도 한다.
이 도구들을 통해 로컬 모델을 선택하고 실행하면 localhost를 통해 서버가 돌아가고, 그 로컬 서버에 프롬프트를 api 요청으로 보내면 LLM을 통해 생성된 답변을 응답으로 받을 수 있다.

로컬 모델을 구할 수 있는 플랫폼

  • Ollama
    로컬 LLM을 실행하는 도구를 제공하면서, 동시에 모델도 다운로드 받을 수 있는 오픈 플랫폼
  • Hugging Face
    AI/머신러닝 생태계에서 가장 널리 쓰이는 오픈 플랫폼
    • LM Studio
      앱 안에서 Hugging Face의 모델을 바로 검색하여 다운로드 받을 수 있음

자주 보이는 용어

양자화

👉 모델 안의 숫자(가중치)를 더 단순한 숫자로 바꾸는 것
LLM 내부에는 이런 값들이 있고 양자화하면 오른쪽 숫자처럼 바뀜.
(예시: 16bit -> 4bit)

0.12345678 → 0.12
-1.98234512 → -2.0

대부분의 모델들이 16bit로 학습되고, bfloat16 (BF16)가 표준이다.

요약

  • 모델의 가중치를 더 적은 비트로 표현해 크기와 연산량을 줄이는 방법
  • 메모리 사용량 감소
  • 성능은 약간 떨어질 수 있지만, 속도와 실행 효율이 크게 개선됨
    (GGUF같은 파일 포맷이나 GPTQ, AWQ 등 양자화 방식에 따라 차이가 있음)

👉 대부분 경우:

  • 4bit 모델 → 충분히 좋음
  • 체감 성능 차이 작음

👉 대신 얻는 것:

  • 속도 ↑
  • VRAM ↓
  • 로컬 실행 가능

파라미터, ~~B

Qwen3.5:27B, GPT-OSS 120B 처럼 끝에 B가 붙은데, 여기서 B는 Billion으로, 모델이 가지고 있는 파라미터를 말한다.
여기서 파라미터란, 모델이 문장을 이해하고 답을 만들 때 사용하는 내부 기준 값이다.
(모델이 다음 단어를 예측할 때, 여러 후보 중에서 뭐가 더 자연스러운지 점수 매기는 값)

ex) 27B = 270억 개 파라미터, 120B = 1200억 개 파라미터

파라미터의 수가 많을수록 복잡한 패턴을 학습 가능하기 때문에 많을수록 성능이 좋아지지만, 모델을 학습시킬 때 사용한 데이터 품질이 더 중요할 수도 있고,
구조(MoE vs Dense)에 따라 다르며, 실제 성능은 최적화에 따라 크게 좌우된다.

MoE, Dense (모델 구조)

MoE

  • Mixture of Experts의 줄임말
  • 여러 파라미터 그룹 중 일부만 선택적으로 사용하는 구조
  • 전체 파라미터는 크지만 실제 연산량은 줄어들어 효율적임

Dense

  • 입력마다 모든 파라미터를 전부 사용하는 구조
  • 연산량이 크고 무겁지만, 동작이 단순하고 안정적임

A(N)B (Active N Billion)
MoE 모델은 전체 파라미터 중 몇 개의 파라미터가 활성화되는지를 이렇게 표기한다.
ex) qwen3.5:122b-A10B


오픈소스 모델

예전에는 GPT나 Gemini 같은 거대한 클라우드 모델들도 성능이 좋지 못했기 때문에, 개인 PC에서의 로컬LLM 사용은 정말 없느니만 못한 수준이었다.
하지만 최근에는 AI 연구와 경쟁이 계속되면서 오픈 웨이트(Open-Weight) AI들도 점점 성능이 좋아졌고, 그 중에서도 개인 PC에서도 꽤나 좋은 성능을 기대하고 사용할만한 몇몇 모델들이 등장하기 시작했다.

오픈 웨이트(Open-Weight)
오픈소스 LLM은 크게 2가지로 나뉜다.

  • 진짜 오픈소스: 코드 + 데이터 + 가중치 공개 (완전 자유)
  • 오픈 웨이트: 모델 파일만 공개 (라이선스 제한 있음). 주로 사용되는 로컬 LLM 거의 대부분이 여기에 속함.

편의상 양 쪽 모두 오픈소스 모델이라고 하겠음.

최근 핫한 오픈소스 모델들

  • Qwen
  • Gemma
  • mistral
  • 기타 등등

2편에서 계속!

profile
깊이 공부하는 웹개발자

0개의 댓글