[한빛미디어 지원] 할루시네이션을 줄여주는 프롬프트 엔지니어링 책 리뷰 - o1-pro vs Perplexity, 그리고 RAG — LLM의 진화와 프롬프트 설계

GoldenDusk·2025년 10월 8일
1

독서

목록 보기
9/9
post-thumbnail

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

1. “프롬프트 엔지니어링, AI와 대화하는 기술”

— 할루시네이션을 줄이고 LLM의 잠재력을 끌어내는 방법

숙련된 장인이 도구의 미묘한 특징을 이해하듯,
프롬프트 엔지니어링(Prompt Engineering)은 AI의 언어 감각을 조율하는 기술입니다.

개요) 프롬프트 엔지니어링이란?

Large Language Model(LLM)은 이미 다양한 분야에서 우리의 일상과 업무를 바꾸고 있습니다.
하지만 LLM은 “어떻게 물어보느냐에 따라 전혀 다른 답”을 주는 존재이기도 하죠.

그래서 등장한 개념이 바로 프롬프트 엔지니어링입니다.
이는 LLM이 가진 잠재력을 최대한 끌어내기 위한 “소통 설계 기술”입니다.

소통 설계로서의 프롬프트 엔지니어링이 중요합니다.

특히, 할루시네이션(그럴듯한데 틀린 답) 을 줄이려면 프롬프트만이 아니라 RAG·가드레일·사후 검증까지 세트로 가져가야 합니다.

2. 책 내용 훑어보기

1) LLM의 그림자, ‘할루시네이션(Hallucination)’

AI의 대답이 그럴듯하지만 틀릴 때, 우리는 그것을 할루시네이션이라 부릅니다.
즉, 모델이 입력과 무관하거나 사실이 아닌 출력을 생성하는 현상입니다.

유형설명
🧾 사실적 할루시네이션실제 사실을 잘못 제시하는 경우
🔗 논리적 할루시네이션논리적 연결이 어긋나는 경우
🌀 문맥적 할루시네이션맥락과 전혀 상관없는 응답을 하는 경우

👉 따라서 LLM의 답변은 “항상 검증되어야 한다”는 점을 기억해야 합니다.
신뢰할 수 있는 데이터와 정교한 프롬프트 설계가 필수죠.

책이 말하는 LLM 파이프라인과 정렬(Alignment)

LLM 구성 절차 — 트랜스포머 모델 → 사전학습 → 지침 미세조정(Instruction FT) → 정렬 모델(Aligned) 로 이어지는 단계.

우리가 사용하는 상용 LLM은 이미 일정 수준의 정렬이 되어 있으나, 프롬프트 설계와 검증을 붙여야 서비스 품질이 올라갑니다.

2) 성능을 높이는 프롬프팅 4가지 핵심 기법

1️⃣ 제로샷 & 푸샷 프롬프팅 (Zero-shot / Few-shot)

프롬프트를 설계할 때 예시를 주느냐, 안 주느냐의 차이입니다.

🔹 제로샷 (Zero-shot)

“예시 없이, 오직 지시만으로”
간결하지만 복잡한 작업에는 부정확할 수 있습니다.

📍 예시

“다음 문장의 감정을 분석해줘.”

🔹 푸샷 (Few-shot)

“몇 개의 예시를 함께 제시”
모델이 작업 방식을 더 쉽게 이해하게 됩니다.

📍 예시

이 영화는 정말 지루했다 - 부정
배우들의 연기는 인상 깊었다 - 긍정

연구 결과에 따르면 3개의 푸샷 예시를 제공했을 때 정확도가 52% 향상되기도 했습니다.

좋은 예시의 3가지 원칙

원칙설명
관련성과 명확성예시가 실제 작업과 직접적으로 관련
다양성과 대표성여러 케이스가 고르게 포함
형식 일관성입력·출력 구조가 동일하게 유지

즉, 푸샷은 모델에게 “작업을 가르치는 미니 훈련 세트”를 만드는 과정입니다.

2️⃣ CoT (Chain-of-Thought) 프롬프팅

“정답을 맞히는 게 아니라, 생각의 과정을 보여주는 것.”

CoT는 모델에게

“이 문제를 풀기 위해 어떤 단계를 거칠까?”
“각 단계에서 무엇을 계산해야 하지?”
를 스스로 생각하게 만드는 기법입니다.

📈 이렇게 하면 모델이 자기 검증(Self-check) 과정을 거치며
복잡한 논리적 문제에서의 오류를 줄일 수 있습니다.

예를 들어 수학 문제, 코딩 디버깅, 논리 추론에서 탁월한 효과를 보입니다.

3️⃣ RAG (Retrieval-Augmented Generation)

검색 증강 생성 기법

LLM이 “세상의 모든 최신 정보”를 알 수는 없습니다.
RAG는 이런 한계를 극복하기 위해 검색(Search) 능력을 붙여줍니다.

⚙️ RAG의 3단계 구조

  1. Retrieve (검색) – 외부 지식 기반에서 관련 정보를 찾는다.
  2. Augment (증강) – 질문과 함께 이 정보를 모델에 제공한다.
  3. Generate (생성) – 검색 결과를 바탕으로 답변을 생성한다.

마치 오픈북 시험을 보는 것과 같습니다.
모델이 스스로 검색해 근거 있는 답변을 작성하죠.

💪 RAG의 장점

  • 최신 정보 접근 가능
  • 할루시네이션 감소
  • 출처 제시로 투명성 확보
  • 도메인 특화 및 개인화 가능

⚔️ CoT vs RAG: 다른 목적, 다른 강점

비교 항목OpenAI o1-proPerplexity
핵심 기술CoT (논리적 추론 중심)RAG (검색 중심)
강점수학, 코딩, 분석 등 깊은 사고최신 정보, 지역 상점, 실시간 트렌드
약점실시간 검색 불가복잡한 논리 추론에 약함

📍 o1-pro는 “생각을 깊게 하는 모델”,
📍 Perplexity는 “세상을 빠르게 탐색하는 모델”이라 할 수 있습니다.

4️⃣ 프롬프트 엔지니어링 자체가 ‘할루시네이션 예방 기술’

LLM은 트랜스포머 구조셀프 어텐션(Self-Attention) 메커니즘으로
문맥 내 단어의 중요도를 스스로 판단합니다.

이 구조는 이미 일정 수준의 정렬(Alignment) 과정을 거친 상태이지만,
프롬프트 엔지니어링을 통해 우리는 모델이 더 집중하고, 덜 흔들리도록 유도할 수 있습니다.

🎯 “잘 설계된 프롬프트는 모델을 혼란에서 구해준다.”

3) 할루시네이션을 막는 추가 기술들

접근 방식설명현실적 적용 난이도
데이터 품질 개선학습 데이터 자체를 정제🔺 어려움 (모델 개발자 영역)
모델 아키텍처 개선구조적 개선으로 추론력 강화🔺 어려움
사후 검증 (Post-verification)외부 데이터, 자기 교정, 인간 검토✅ 현실적

특히 “사후 검증(Post Verification)”은 RAG와 함께 실무에서 매우 유용합니다.
LLM이 생성한 답변을 외부 지식 기반이나 자기 교정(Self-Critique) 으로 한 번 더 점검하는 방식입니다.

4) 자주 받는 질문(FAQ)

Q. o1-pro(추론형)인데, 지역 가게 영업시간이 자꾸 틀려요.
A. 그건 모델의 목적과 입력 파이프라인 문제. o1-pro는 추론·코딩 등에 강점, 영업시간은 RAG/검색 도구 연결이 핵심.

Q. 파인튜닝하면 다 해결되나요?
A. 도메인 스타일 적응엔 좋지만, 최신성/근거/검증은 여전히 RAG·가드레일이 필요.

Q. 블로그용 예시 데이터는?
A. 푸샷 예시를 카테고리 균형/형식 일관/명확성 기준으로 직접 선별해라. 잘못된 예시는 성능을 오히려 악화시킨다.

3. 할루시네이션을 줄여주는 프롬프트 엔지니어링 책이란?

1) 이 책이 ‘실전서’인 이유: RAG·인덱싱·그라운딩·평가

1️⃣ 인덱싱 파이프라인: Load → Split → Store

LangChain으로 디렉터리 로드, 문서 분할(chunk_size/overlap), 벡터스토어 저장까지 한 번에. 현업에서 바로 쓸 수 있게 매개변수의 의미를 설명해 줍니다.

2️⃣ RAG 아키텍처: 검색·증강·생성


RAG의 단계별 설계

  • 질의 변환(Query Transformation)으로 사용자의 질문을 검색 친화적 질의로 바꾸고,
  • 임베딩/유사도 검색/문서 분할을 통해 가장 관련 문맥을 찾아,
  • 증강(Augment) 단계에서 맥락과 함께 답변을 생성한다.
    하이라이트는 “근거가 없으면 답하지 말라”그라운딩 프롬프트 규칙(사진 4 하단 예시). 서비스 신뢰도의 생명줄이다.

3️⃣ 에이전트/도구/메모리/계획

ReAct/에이전트 개념 — 툴 호출·증거 수집·계획을 엮어 스스로 태스크를 수행하는 에이전트를 만듭니다. 보고서 생성·로그 분석·FAQ 자동화에 유용.

4️⃣ 신뢰성 평가: TruthfulQA, HaluEval, FEVER, FACTSCORE


평가 벤치마크 — 단순 정답률이 아니라 진실성·근거성·사실성을 봅니다. 현업에서 “잘 말하는 모델”이 아니라 “바르게 말하는 모델” 을 고르는 기준이 됩니다.

5️⃣ 할루시네이션 유형과 CoT의 효과

유형별 사례와 Pineapple 모음 개수 문제에서 CoT를 적용했을 때 오답→정답으로 달라지는 과정을 한 컷 도식으로 보여주며, “풀이 과정을 말하게 하라”는 메시지가 직관적으로 전달됩낟,

2) 이 전자책의 주요 장점 5가지

  1. 최신 LLM 도구·예제 기반 실전성
    OpenAI·Gemini·LangChain 등으로 바로 따라할 수 있는 프로젝트가 촘촘합니다. 코드·설계·프롬프트까지 엔드투엔드로 연결됩니다.

  2. 할루시네이션 예방 전술 총정리
    프롬프트 엔지니어링, 데이터 품질·모델 아키텍처 개선, 사후 검증(그라운딩·자기 교정)실습형으로 익힙니다.

  3. RAG·지식 그래프·멀티에이전트
    검색 증강부터 그래프 결합, 에이전트(툴 호출·계획·메모리)까지 프로덕션 관점에서 구현해 봅니다.

  4. 실전 예제의 다양성
    백과사전 챗봇, 실시간 QA 에이전트, 트렌드 분석 등 서비스 완성형 예제가 “모델 호출”을 넘어 시스템 설계 역량을 키워줍니다.

  5. 입문~실무자까지 한 권 커버
    파이썬·ML 베이스로 고급 프롬프팅·평가·책임 있는 AI 설계 까지 체계적으로 넘깁니다.

3) 추천 독자 & 활용 시나리오

  • 정확성과 신뢰성을 높여야 하는 개발자/엔지니어: 고객지원, 문서 QA, 내부 검색.
  • MLOps·AI 서비스 담당자: 데이터 품질·RAG·지식 그래프·평가 체계를 운영에서 굴려야 하는 팀.
  • 도메인 전문가/컨텐츠 팀: “근거 제시가 필요한” 리서치·리포팅 자동화.
  • 스타트업: 고비용 파인튜닝 대신 API + RAG + 가드레일가성비 솔루션을 빠르게.

4) 읽으며 얻은 인사이트 5

  1. “추론형 vs 검색형” 을 구분하면 도구 선택이 빨라진다. (o1-pro ↔ Perplexity)
  2. 프롬프트만으론 부족하다. 반드시 근거·검증을 붙여야 한다.
  3. 문서 분할과 임베딩 품질이 RAG의 절반을 먹고 들어간다. (chunk 설계, overlap 튜닝)
  4. 벤치마크는 선택이 아니라 필수. TruthfulQA/HaluEval/FEVER/FACTSCORE로 “잘 말함”이 아닌 “바르게 말함”을 측정.
  5. 제약 조건(guardrail) 문구가 품질을 좌우한다. “근거 없으면 모름” 한 줄의 힘.

5) 좋았던 점

  • 도해·캡션이 풍부해서 팀 온보딩 자료로 쓰기 좋다.
  • 코드·아키텍처·프롬프트가 한 흐름으로 이어진다.
  • “그럴듯한데 틀린 답”을 어떻게 잡는지 구체적이다.

6) 한줄 평 & 별점

“멋진 답변”이 아니라 “신뢰 가능한 답변” 을 만드는 법을, 설계–코드–평가까지 연결해주는 실전서.
⭐️⭐️⭐️⭐️☆ (4.6/5) — RAG/그라운딩/가드레일을 일단 이 책대로만 구현해도 서비스 품질이 체감으로 달라진다.

요약

  • LLM의 최대 리스크는 할루시네이션.
  • 프롬프트 설계 + RAG + CoT + 사후 검증이 현업 가성비 최강 스택.
  • 이 전자책은 인덱싱→검색→증강→생성→평가까지 엔드투엔드로 잡아준다.

정확성과 신뢰성을 높여야 하는 개발자/엔지니어라면 읽어볼 추천 도서이다. RAG나 랭체인 관심이 있는 분들에게 강추하고 싶습니다!!

뿐만 아니라 실전 구현도 있기 때문에 도움이 됩니다.

profile
내 지식을 기록하여, 다른 사람들과 공유하여 함께 발전하는 사람이 되고 싶다. gitbook에도 정리중 ~

0개의 댓글