첫 OpenClaw 사용자 필독: 지갑 털리지 않는 LLM 비용 타파 비법

배고픈코알라·2026년 3월 6일

요즘 X(트위터)나 레딧 같은 커뮤니티를 보면 "OpenClaw 토큰 비용 미쳤다... 매달 청구서 날아올까 봐 무서워서 못 쓰겠음 ㅠㅠ" 하고 한탄하는 유저들이 정말 많죠.
솔직히 저도 처음 설치하고 며칠 동안은 딱 그 상태였습니다.

2026년 기준, 가장 핫한 오픈소스 프로젝트라고 하면 단연 "OpenClaw"를 꼽을 수 있습니다. 깃허브 스타 수 26만 개를 돌파하며, 실리콘밸리 개발자부터 업무 효율을 높이려는 일반 직장인까지 누구나 자신만의 "Jarvis AI"를 가지는 시대가 열렸죠.
근데 로컬 환경에 신나게 배포하고 "드디어 나도 AI 마스터!"라며 기뻐했던 것도 잠시, 3일 뒤에 API 청구서 대시보드를 보고 그대로 멘탈이 나갔습니다(ㅋㅋㅋ).
openclaw-cost

하루 만에 200달러를 태운 용자부터, 한 달 청구서가 3,600달러 찍힌 사람, 심지어 자동화 태스크가 무한 루프에 빠지는 바람에 자고 일어났더니 청구서에 4자릿수(수천 달러)가 찍혔다는 눈물 나는 사연도 있습니다.
OpenClaw가 "무료"라는 건 어디까지나 소프트웨어 자체일 뿐입니다. 진짜 비용이 나가는 곳은 백그라운드에서 돌아가는 AI 모델의 API 호출이죠. 모든 대화, 정기 태스크의 수동 실행, 툴 호출 등 하나하나가 토큰을 잡아먹고, 그 토큰은 다이렉트로 내 피 같은 "돈"이 되어 사라집니다.

최적화를 전혀 안 하고 쓰면 한 달에 수백 달러가 순삭되는 건 예삿일입니다. 하지만 핵심만 잘 짚어서 세팅해 주면 월 $5~$15 정도로 엄청 쾌적하게 쓸 수 있어요.
오늘은 제가 직접 삽질하면서 검증한, "OpenClaw 구동 비용을 80% 이상 줄일 수 있는 7가지 확실한 최적화 노하우"를 전부 공유해 드릴게요!

아니 애초에, 내 돈이 다 어디로 새나가고 있는 걸까?

비용을 줄이기 전에 먼저 "어디서 돈이 줄줄 새고 있는지(오버헤드 발생 지점)"를 정확히 파악해야 합니다. OpenClaw의 토큰 소비는 주로 다음 6가지 포인트에 집중되어 있습니다.

1. 시스템 프롬프트가 만드는 "보이지 않는 오버헤드"
OpenClaw에 말을 걸 때, 시스템은 여러분이 보낸 메시지만 AI한테 딸랑 전송하는 게 아닙니다. 그 전에 엄청난 양의 시스템 프롬프트(내 페르소나 설정인 SOUL.md, 행동 지침 AGENTS.md, 툴 리스트 TOOLS.md, 과거 메모리 MEMORY.md 등)를 통째로 때려 넣습니다. 이 용량이 가뿐히 8,000~15,000 토큰에 달하죠. 그냥 "안녕" 한마디만 보내도 백그라운드에서는 수만 토큰의 오버헤드가 발생하고 있는 겁니다.
2. 대화 기록 누적 (끝없이 비대해지는 컨텍스트)
OpenClaw는 문맥 유지를 위해 대화 기록 전체를 모델에 전송합니다. 대화가 길어질수록 1회 요청당 비용은 눈덩이처럼 불어납니다. 1주일 내내 방치한 세션은 컨텍스트가 20만 토큰까지 부풀어 올라서, 요청 한 번에 $6~$8씩 날리다가 타임아웃으로 실패해 버리는 노답 상황도 본 적 있습니다. 완벽한 리소스 낭비죠.
3. 백그라운드 정기 실행 "Heartbeat" 기능
OpenClaw에는 AI가 주기적으로 태스크를 실행하도록 하는 Heartbeat(정기 실행) 기능이 있습니다. 핑이 한 번 돌 때마다 풀 컨텍스트를 담은 API 요청이 날아갑니다. 만약 "5분에 한 번씩 메일 체크해 줘"라고 설정해 뒀다면 그것만으로 하루에 $50 정도는 우습게 털립니다. 일반 개인 개발자에게 그렇게 높은 빈도는 전혀 필요하지 않습니다.
4. 툴 호출의 연쇄적인 소비
"오늘 안 읽은 메일 좀 정리해 줘"라고 하면 AI는 한 번에 끝내지 않아요. "메일 가져오기" → "내용 파싱" → "우선순위 판단" → "Todoist에 태스크 등록" → "요약 생성" 등, 뒤에서 5~10번의 API 요청을 연쇄적으로 날립니다. 게다가 매번 묵직한 컨텍스트가 덤으로 얹혀서 말이죠.
5. 툴 출력 결과에 따른 컨텍스트 낭비
OpenClaw는 툴 실행 결과도 세션 히스토리에 다 저장합니다. 예를 들어 500줄짜리 소스 코드를 읽게 만들면, 3,000~5,000 토큰이 그대로 히스토리에 박혀서 다음 대화 때 AI에게 또 고스란히 전송됩니다. 낭비의 끝판왕이죠.
6. 모델 선택 미스 (가장 흔한 함정)
제일 많이 하는 실수입니다. Claude Opus 4.6의 가격은 $15/$75 (입력/출력, 1M 토큰당)인데 반해, Haiku 4.5는 $1/$5입니다. 약 5배 이상 차이가 나죠. "오늘 날씨 어때?" 같은 초간단 질문에 매번 Opus를 부르고 있다면 명백한 오버스펙이고 완벽한 리소스 낭비입니다.

이런 "돈 새는 구멍"들만 콱 막아주면, 우리가 해야 할 최적화 전략 모델은 자연스럽게 눈에 보입니다.

꿀팁 1: 모델 다운그레이드 (효과 쌉달달함!)

비용 절감의 첫걸음이자 가장 즉각적으로 체감되는 필살기입니다.

공식 디폴트 설정으로는 Claude Opus 4.6을 추천하고 있고, 확실히 성능은 깡패 맞습니다. 근데 솔직히 까놓고 말해서 일상적인 개인 업무의 80%에 Opus는 오버스펙입니다. 간단한 검색, 일정 체크, 파일 조작이나 번역 정도면 Sonnet 4.5만으로도 차고 넘칩니다. Sonnet을 쓰면 출력 비용을 Opus의 60% 이하로 억제할 수 있죠.

설정은 매우 간단합니다. OpenClaw 설정 파일에서 디폴트 모델을 Sonnet으로 바꾸기만 하면 끝.

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-sonnet-4-5-20251001",
        "fallback": "anthropic/claude-haiku-4-5-20251001"
      }
    }
  }
}

여기서 더 똑똑한 운영법은 fallback(대체) 모델을 세팅해 두는 겁니다. 주력으로 Sonnet을 배치하고, Rate Limit(속도 제한)이나 API 잔고 부족에 걸렸을 때 자동으로 Haiku로 스위칭되게 해두는 거죠.
진짜 Opus가 필요한 무거운 작업(장문 작문, 복잡한 코드 작성, 딥한 추론 로직 등)일 때만 수동으로 모델을 지정해 주면 됩니다. 이것만으로도 월 비용을 약 40%는 깎아낼 수 있어요.

만약 예산을 더 쥐어짜고 싶다면 MiniMax M2.5를 강추합니다. 1M 토큰당 입력 비용이 고작 $0.30로, Sonnet의 약 1/10 수준이라는 압도적인 가성비를 자랑합니다. SWE-Bench 결과에서도 Sonnet에 꽤 근접한 스코어를 보여주니 일상 용도로는 전혀 무리가 없습니다. 게다가 OpenClaw 플러그인에서 OAuth 원클릭 연동까지 지원하니 세팅도 초간단.

꿀팁 2: 시스템 프롬프트 다이어트

요청을 날릴 때마다 전송되는 시스템 프롬프트는 '보이지 않는 세금' 같은 존재죠. 사실 이 파일들, 군살 뺄 데가 엄청 많습니다.

특히 다음 3가지 파일을 점검해 보세요:

AGENTS.md: 그룹 채팅 룰이나 TTS(음성 합성) 설정 등, 평소엔 1도 안 쓸 기능 설명이 잔뜩 들어있습니다. 텔레그램 하나만 쓴다면 그룹 규칙은 싹 다 날리세요! 음성 안 쓰면 TTS 옵션도 지워버려요! 목표는 800 토큰 이하로 압축하는 겁니다.
SOUL.md: AI 페르소나 설정. 굳이 "너는 친절하고 프로페셔널한..." 어쩌구저쩌구 장문의 편지를 쓸 필요 없습니다. AI는 똑똑하니까 2~3줄의 간결한 지시만으로 충분합니다.
MEMORY.md: 방치하면 순식간에 뚱뚱해지는 메모리 파일. 주기적으로 아카이브(백업)로 넘기거나, 현재 액티브 상태인 프로젝트 컨텍스트만 남기도록 관리하세요.

이것들만 깔끔하게 정리해 줘도, 매번 13,000+ 토큰씩 잡아먹던 오버헤드 비용이 3,000~5,000 토큰까지 확 떨어집니다. 리퀘스트가 쌓일수록 복리처럼 효과가 터지는 바디블로우 기술이죠.

꿀팁 3: QMD 도입 (비용 절감의 최종 병기)

QMD(Quantum Memory Database)는 Shopify 공동창업자 Tobi가 개발한 로컬 시맨틱 검색 시스템으로, OpenClaw 2026.2.2 버전부터 기본 기능으로 탑재되었습니다.

기존 시스템이 MEMORY.md 전체를 AI 얼굴에 그대로 집어 던지는 방식이었다면, QMD는 쿼리의 의도를 로컬에서 해석해서 관련성 높은 핵심 문장 2~3개만 쏙 뽑아 AI에게 넘겨줍니다. 쓸데없는 정보 90%를 커트해 주는 거죠.

공식 벤치마크에 따르면 토큰 소비량이 90~99% 감소할 뿐만 아니라, AI가 쓸데없는 노이즈에 낚이지 않아서 응답 속도는 5~50배 빨라지고 답변 정확성마저 93%로 상승한다는 사기캐급 스펙을 보여줍니다.
2026.2.2 이상 버전이라면 이미 깔려있으니, 메모리 파일이 수천 토큰을 넘어가기 시작했다면 무조건 활성화해야 하는 기능입니다. 이거 진짜 갓기능이에요.

꿀팁 4: Heartbeat 빈도 최적화

"5분 단위로 메일이랑 일정 체크해 주셈." 개발자라면 한 번쯤 로망으로 세팅해 보는 자동화지만, 냉정하게 생각해 봅시다. 정말 그렇게 빡빡하게 모니터링할 필요가 있을까요?

애초에 "실시간 알림이 필요해"라는 생각 자체가 대부분 본인의 착각(거짓 ニーズ)일 확률이 높습니다. 시스템 체크 인터벌을 30분이나 1시간으로 늘리고, 업데이트 확인은 하루 1번으로 줄이세요. 그리고 알림 방식도 "정기 보고"가 아니라 "내가 찾을 때만 알려줘(온디맨드)"로 바꾸는 게 맞습니다.
게다가 고인물용 테크닉으로 여럿으로 쪼개진 정기 태스크를 하나로 퉁치는 방법이 있습니다. "메일 확인", "캘린더 확인", "할 일 목록 파싱"을 따로 돌리지 말고, 『아침 8시 데일리 리포트』라는 하나의 cron 태스크로 묶어버리면 컨텍스트 주입 비용을 75%나 아낄 수 있습니다.

꿀팁 5: 멀티 Agent 트래픽 분산

OpenClaw는 여러 개의 Agent를 띄우고 각각 독립적인 세션과 워크스페이스를 할당할 수 있습니다. 단순한 기능 분리가 아니라, 이게 바로 엄청난 비용 컨트롤 스킬입니다.

설계 사상은 아주 심플해요.

메인 Agent (무거운 작업용): 빡센 프로그래밍이나 글쓰기 시. Opus나 Sonnet을 붙여줍니다.
라이트 Agent (가벼운 작업용): 일상적인 단순 질문, 번역, 리마인더. Haiku나 Gemini Flash를 붙여줍니다.

모든 걸 Agent 하나에 몰빵하면, 컨텍스트에 온갖 잡다한 정보가 섞여서 토큰만 오지게 먹고, AI도 '오염된 문맥' 때문에 갈수록 헛소리를 하게 됩니다 (갑자기 전 태스크 얘기 꺼내고 난리도 아님). 작업의 무게에 맞춰 전담 Agent를 스위칭하는 게 제일 빠르고 가성비가 좋습니다.

꿀팁 6: 정기적인 세션 리셋 (초기화)

이거 의외로 안 하는 분들 많더라고요.
OpenClaw 세션은 로그가 무한정 딥하게 쌓입니다. 며칠 방치한 채팅 히스토리가 10만 토큰을 넘어가는 일은 밥 먹듯이 일어납니다.

해결책은 무조건 "주기적으로 새 세션(채팅창)을 열어라"입니다.
openclaw.json 설정에서 maxSessionTokens 값을 50,000~100,000 정도로 잡아두면, 리미트에 도달했을 때 알아서 컨텍스트를 잘라줍니다 (로컬 히스토리 자체는 안 날아가니까 쫄지 마세요).
채팅창에서 /status 치면 지금 세션의 무게가 나오니까, 좀 뚱뚱해졌다 싶으면 수동으로 /clear 하든가 새 대화를 시작하는 습관을 들이세요.

꿀팁 7: 무료 티어 및 구독 요금제 활용

API 종량제가 후덜덜하다면 아예 정액제나 무료 티어 뽕을 뽑는 것도 방법입니다.

Anthropic Claude Pro ($20/월): 만약 월 API 요금이 $20를 넘길 각이라면, 맘 편하게 Claude Pro를 구독하는 게 이득입니다. Claude Code CLI의 API 키를 프록시 타서 OpenClaw에 물려주면 실질 정액제로 굴리는 게 가능합니다.
Google Gemini: Gemini 무료 티어(Flash 모델)는 개인적으로 엄청 혜자라고 봅니다. API 리셋 사이클도 5시간마다 돌아오죠. Antigravity 인증이랑 조합하면 Gemini 3 Pro나 Flash 등 전 시리즈 모델 락이 해제돼서, 주머니 얇은 학생이나 주니어 개발자한테는 진짜 최고의 선택지입니다.
로컬 모델 (Ollama 등): 만약 M1/M2/M3 맥북(램 32기가 이상)이나 짱짱한 GPU가 박힌 데탑이 있다면, 로컬로 LLM 돌려버려서 API 비용을 아예 0원으로 만들 수 있습니다. 복잡한 로직 처리는 버겁지만 일상 대화나 잡무용으로는 충분히 현역이죠.
MiniMax Coding Plan: Agent 환경에 특화된 구독 플랜. 초기 비용 확 낮추고 장기 존버할 생각이라면 가성비 엄청 좋습니다.

팩트 체크: 진짜로 얼마나 싸지는데? (비용 시뮬레이션)

하루에 30번 정도 OpenClaw랑 티키타카하고, 일상적으로 툴이나 정기 태스크를 돌린다고 가정해 봅시다.

[최적화 전] (기본 Opus, 세팅 방치, Heartbeat 펑펑 씀)
일일 토큰 소비량: 약 200만 토큰
월 결제액: 약 $300~$600 (개인 개발자 기준 웃음기 싹 가시는 금액)
[최적화 후] (주력 Sonnet/Haiku, 프롬프트 다이어트, QMD 도입, 주기 조정, 세션 관리)
일일 토큰 소비량: 약 15만~30만 토큰
월 결제액: 약 $10~$25

무려 90% 이상 절감입니다. 이거 과장 1도 안 섞고 제 찐 운영 환경이나 해외 레딧 커뮤니티 분들이 다 실증한 수치예요.
더 극단적으로 세팅해서 기본 베이스를 MiniMax M2.5나 Gemini Flash로 깔고, 각 잡고 코딩할 때만 Sonnet을 호출하는 식으로 굴리면 월 $5 컷도 쌉가능입니다.

복붙용 꿀팁 설정 커맨드 모음

마지막으로, 위에서 설명했던 세팅을 터미널에서 뚝딱 끝낼 수 있게 명령어만 싹 모아놨으니 그냥 복붙해서 쓰세요.

1. 디폴트 모델 변경 및 alias(별칭) 설정

openclaw config set 'agents.defaults.model' --json '{
  "primary": "anthropic/claude-sonnet-4-5",
  "fallbacks": ["anthropic/claude-haiku-4-5"]
}'

openclaw config set 'agents.defaults.models' --json '{
  "anthropic/claude-haiku-4-5": { "alias": "haiku" },
  "anthropic/claude-sonnet-4-5": { "alias": "sonnet" },
  "anthropic/claude-opus-4-6": { "alias": "opus" },
  "minimax/MiniMax-M2.5": { "alias": "minimax" }
}'

# 설정 리로드
openclaw gateway restart

2. MiniMax 플러그인 도입 (OAuth 연동)

openclaw plugins enable minimax-portal-auth
openclaw gateway restart

3. 시스템 프롬프트 파일 경량화
워크스페이스 디렉토리(디폴트는 ~/.openclaw/workspace/)로 이동 후, 파일 각각 편집:

cd ~/.openclaw/workspace

# AGENTS.md 열어서 안 쓰는 기능 설명 싹 지우기
nano AGENTS.md

# SOUL.md 열어서 2~3줄로 컷트
nano SOUL.md

# MEMORY.md 청소하고 유통기한 지난 내용 아카이브
nano memory/*.md

4. Heartbeat 주기 변경 및 정기 태스크 하나로 합치기
Heartbeat(정기 실행) 간격을 디폴트에서 30분으로 변경:

openclaw config set 'agents.defaults.heartbeat.every' '30m'

매일 아침 8시 데일리 리포트를 cron에 추가 (~/.openclaw/cron/jobs.json 에 추가):

{
  "name": "매일 아침 자동 요약",
  "schedule": { "kind": "cron", "expr": "0 8 * * *" },
  "sessionTarget": "isolated", // "isolated" 옵션: 매번 독립된 새 세션(채팅)을 띄우므로 과거 히스토리가 쌓이지 않음
  "payload": {
    "kind": "agentTurn",
    "message": "오늘 안 읽은 메일, 캘린더 일정, Todo 리스트 싹 모아서 깔끔하게 요약 리포트 하나 뽑아줘."
  }
}

5. 멀티 Agent 트래픽 분산
openclaw.json 의 agents 섹션에 복수 Agent 추가:

{
  "agents": {
    "defaults": {
      "model": { "primary": "anthropic/claude-sonnet-4-5" }
    },
    "list": [
      { "id": "main", "default": true },
      { "id": "light", "workspace": "~/.openclaw/workspace-light" }
    ]
  }
}

이후 bindings 를 써서 채팅 채널별로 전담 Agent 매핑:

{
  "bindings": [
    {
      "agentId": "light",
      "match": { "channel": "telegram", "peer": { "kind": "group", "id": "당신의_그룹_ID" } }
    }
  ]
}

6. 실시간 토큰 소모량 체크
채팅창이나 터미널에서 언제든 확인 가능:

# 채팅창에 냅다 치기
/status

# 터미널에서 확인
openclaw status

마무리: 앞으로의 개인 AI 셋업을 위해

OpenClaw는 현시점에선 이견 없는 탑티어 퍼스널 AI 어시스턴트 프레임워크가 맞습니다. 하지만 "오픈소스에 무료"라고 해서 아무 생각 없이 방치형으로 돌려도 되는 물건은 절대 아니에요. 튜닝 없이 쓰면 그저 "토큰을 꿀꺽꿀꺽 마시는 하마"가 되지만, 오늘 정리한 세팅들만 각 잡고 만져주면 진짜 미친 효율을 뽑아주는 파트너가 됩니다.

앞으로 AI 에이전트 운용이 더 대중화될 텐데, 이제는 단순한 '프롬프트 엔지니어링'만 잘하는 걸 넘어서서 이런 '리소스 최적화'나 '아키텍처 설계'적인 시야를 가졌는가에 따라 엔지니어 레벨이 크게 갈릴 것 같습니다.

OpenClaw를 잘 쓴다는 건, "돈을 얼마나 부었느냐"가 아닙니다. "선택과 집중을 통해 진짜 코어 태스크에만 비용을 똑똑하게 올인했느냐(가성비 극한으로 뽑았냐)"에 달린 거죠.

혹시 이 글이 도움 되셨다면, 저처럼 API 명세서 보면서 호흡곤란 오고 있을 개발자 친구들에게 공유 한 번씩 쏴주세요!
세팅하다가 막히는 부분이나 "나는 이런 꼼수로 돈 더 아낌 ㅋㅋ" 하는 분 계시면 댓글 스레드나 SNS로 거침없이 피드백 남겨주시기 바랍니다!