
"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

— 할루시네이션을 줄이고 LLM의 잠재력을 끌어내는 방법
숙련된 장인이 도구의 미묘한 특징을 이해하듯,
프롬프트 엔지니어링(Prompt Engineering)은 AI의 언어 감각을 조율하는 기술입니다.
Large Language Model(LLM)은 이미 다양한 분야에서 우리의 일상과 업무를 바꾸고 있습니다.
하지만 LLM은 “어떻게 물어보느냐에 따라 전혀 다른 답”을 주는 존재이기도 하죠.
그래서 등장한 개념이 바로 프롬프트 엔지니어링입니다.
이는 LLM이 가진 잠재력을 최대한 끌어내기 위한 “소통 설계 기술”입니다.
소통 설계로서의 프롬프트 엔지니어링이 중요합니다.
특히, 할루시네이션(그럴듯한데 틀린 답) 을 줄이려면 프롬프트만이 아니라 RAG·가드레일·사후 검증까지 세트로 가져가야 합니다.
AI의 대답이 그럴듯하지만 틀릴 때, 우리는 그것을 할루시네이션이라 부릅니다.
즉, 모델이 입력과 무관하거나 사실이 아닌 출력을 생성하는 현상입니다.
| 유형 | 설명 |
|---|---|
| 🧾 사실적 할루시네이션 | 실제 사실을 잘못 제시하는 경우 |
| 🔗 논리적 할루시네이션 | 논리적 연결이 어긋나는 경우 |
| 🌀 문맥적 할루시네이션 | 맥락과 전혀 상관없는 응답을 하는 경우 |
👉 따라서 LLM의 답변은 “항상 검증되어야 한다”는 점을 기억해야 합니다.
신뢰할 수 있는 데이터와 정교한 프롬프트 설계가 필수죠.

LLM 구성 절차 — 트랜스포머 모델 → 사전학습 → 지침 미세조정(Instruction FT) → 정렬 모델(Aligned) 로 이어지는 단계.
우리가 사용하는 상용 LLM은 이미 일정 수준의 정렬이 되어 있으나, 프롬프트 설계와 검증을 붙여야 서비스 품질이 올라갑니다.
프롬프트를 설계할 때 예시를 주느냐, 안 주느냐의 차이입니다.
“예시 없이, 오직 지시만으로”
간결하지만 복잡한 작업에는 부정확할 수 있습니다.
📍 예시
“다음 문장의 감정을 분석해줘.”
“몇 개의 예시를 함께 제시”
모델이 작업 방식을 더 쉽게 이해하게 됩니다.
📍 예시
이 영화는 정말 지루했다 - 부정
배우들의 연기는 인상 깊었다 - 긍정
연구 결과에 따르면 3개의 푸샷 예시를 제공했을 때 정확도가 52% 향상되기도 했습니다.
| 원칙 | 설명 |
|---|---|
| 관련성과 명확성 | 예시가 실제 작업과 직접적으로 관련 |
| 다양성과 대표성 | 여러 케이스가 고르게 포함 |
| 형식 일관성 | 입력·출력 구조가 동일하게 유지 |
즉, 푸샷은 모델에게 “작업을 가르치는 미니 훈련 세트”를 만드는 과정입니다.
“정답을 맞히는 게 아니라, 생각의 과정을 보여주는 것.”
CoT는 모델에게
“이 문제를 풀기 위해 어떤 단계를 거칠까?”
“각 단계에서 무엇을 계산해야 하지?”
를 스스로 생각하게 만드는 기법입니다.
📈 이렇게 하면 모델이 자기 검증(Self-check) 과정을 거치며
복잡한 논리적 문제에서의 오류를 줄일 수 있습니다.
예를 들어 수학 문제, 코딩 디버깅, 논리 추론에서 탁월한 효과를 보입니다.
검색 증강 생성 기법
LLM이 “세상의 모든 최신 정보”를 알 수는 없습니다.
RAG는 이런 한계를 극복하기 위해 검색(Search) 능력을 붙여줍니다.
마치 오픈북 시험을 보는 것과 같습니다.
모델이 스스로 검색해 근거 있는 답변을 작성하죠.
| 비교 항목 | OpenAI o1-pro | Perplexity |
|---|---|---|
| 핵심 기술 | CoT (논리적 추론 중심) | RAG (검색 중심) |
| 강점 | 수학, 코딩, 분석 등 깊은 사고 | 최신 정보, 지역 상점, 실시간 트렌드 |
| 약점 | 실시간 검색 불가 | 복잡한 논리 추론에 약함 |
📍 o1-pro는 “생각을 깊게 하는 모델”,
📍 Perplexity는 “세상을 빠르게 탐색하는 모델”이라 할 수 있습니다.
LLM은 트랜스포머 구조와 셀프 어텐션(Self-Attention) 메커니즘으로
문맥 내 단어의 중요도를 스스로 판단합니다.
이 구조는 이미 일정 수준의 정렬(Alignment) 과정을 거친 상태이지만,
프롬프트 엔지니어링을 통해 우리는 모델이 더 집중하고, 덜 흔들리도록 유도할 수 있습니다.
🎯 “잘 설계된 프롬프트는 모델을 혼란에서 구해준다.”
| 접근 방식 | 설명 | 현실적 적용 난이도 |
|---|---|---|
| 데이터 품질 개선 | 학습 데이터 자체를 정제 | 🔺 어려움 (모델 개발자 영역) |
| 모델 아키텍처 개선 | 구조적 개선으로 추론력 강화 | 🔺 어려움 |
| 사후 검증 (Post-verification) | 외부 데이터, 자기 교정, 인간 검토 | ✅ 현실적 |
특히 “사후 검증(Post Verification)”은 RAG와 함께 실무에서 매우 유용합니다.
LLM이 생성한 답변을 외부 지식 기반이나 자기 교정(Self-Critique) 으로 한 번 더 점검하는 방식입니다.
Q. o1-pro(추론형)인데, 지역 가게 영업시간이 자꾸 틀려요.
A. 그건 모델의 목적과 입력 파이프라인 문제. o1-pro는 추론·코딩 등에 강점, 영업시간은 RAG/검색 도구 연결이 핵심.
Q. 파인튜닝하면 다 해결되나요?
A. 도메인 스타일 적응엔 좋지만, 최신성/근거/검증은 여전히 RAG·가드레일이 필요.
Q. 블로그용 예시 데이터는?
A. 푸샷 예시를 카테고리 균형/형식 일관/명확성 기준으로 직접 선별해라. 잘못된 예시는 성능을 오히려 악화시킨다.

LangChain으로 디렉터리 로드, 문서 분할(chunk_size/overlap), 벡터스토어 저장까지 한 번에. 현업에서 바로 쓸 수 있게 매개변수의 의미를 설명해 줍니다.


RAG의 단계별 설계 —

ReAct/에이전트 개념 — 툴 호출·증거 수집·계획을 엮어 스스로 태스크를 수행하는 에이전트를 만듭니다. 보고서 생성·로그 분석·FAQ 자동화에 유용.

평가 벤치마크 — 단순 정답률이 아니라 진실성·근거성·사실성을 봅니다. 현업에서 “잘 말하는 모델”이 아니라 “바르게 말하는 모델” 을 고르는 기준이 됩니다.

유형별 사례와 Pineapple 모음 개수 문제에서 CoT를 적용했을 때 오답→정답으로 달라지는 과정을 한 컷 도식으로 보여주며, “풀이 과정을 말하게 하라”는 메시지가 직관적으로 전달됩낟,
최신 LLM 도구·예제 기반 실전성
OpenAI·Gemini·LangChain 등으로 바로 따라할 수 있는 프로젝트가 촘촘합니다. 코드·설계·프롬프트까지 엔드투엔드로 연결됩니다.
할루시네이션 예방 전술 총정리
프롬프트 엔지니어링, 데이터 품질·모델 아키텍처 개선, 사후 검증(그라운딩·자기 교정) 을 실습형으로 익힙니다.
RAG·지식 그래프·멀티에이전트
검색 증강부터 그래프 결합, 에이전트(툴 호출·계획·메모리)까지 프로덕션 관점에서 구현해 봅니다.
실전 예제의 다양성
백과사전 챗봇, 실시간 QA 에이전트, 트렌드 분석 등 서비스 완성형 예제가 “모델 호출”을 넘어 시스템 설계 역량을 키워줍니다.
입문~실무자까지 한 권 커버
파이썬·ML 베이스로 고급 프롬프팅·평가·책임 있는 AI 설계 까지 체계적으로 넘깁니다.
“멋진 답변”이 아니라 “신뢰 가능한 답변” 을 만드는 법을, 설계–코드–평가까지 연결해주는 실전서.
⭐️⭐️⭐️⭐️☆ (4.6/5) — RAG/그라운딩/가드레일을 일단 이 책대로만 구현해도 서비스 품질이 체감으로 달라진다.
정확성과 신뢰성을 높여야 하는 개발자/엔지니어라면 읽어볼 추천 도서이다. RAG나 랭체인 관심이 있는 분들에게 강추하고 싶습니다!!
뿐만 아니라 실전 구현도 있기 때문에 도움이 됩니다.