Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

JY·2026년 3월 20일

논문정리

목록 보기

7/9

우리 쿠키가 머리는 참 좋은데... 공부를 안해서 걱정이에요

그렇다.
우리 쿠키는 기억력이 어느정도 받쳐줬다.

부모님이 학부모 상담 갈 때마다 하던 말이 있다.

~~"쿠키가 머리는 좋은데 공부를 안 해서..."~~

이게 진짜였다. 진짜로 머리는 좋아서 시험 전날 밤새워서 벼락치기하면 웬만한 건 다 맞췄다. 머릿속에 쑤셔넣은 걸 시험장에서 기억나는 대로 쏟아내는 방식.
대충 살아도 중간은 가는 타입이었다.

근데 문제가 생겼다.

쿠키가 드라마를 보다가 의사가 되고 싶어진 거다.

"나도 저렇게 사람 목숨을 살리는 그런 멋진 의사가 되고싶다!"

일단 수능공부를 하기로 했다.

수능이 암기만으로 안 되는 시험이냐고 하면... '어느 정도'까지는 된다.
원래 하던대로 벼락치기 해도 어디 컴공은 갈 수 있다.

근데 우리 쿠키는 의사가 되고싶다는 생각을 해버렸다.
의대는 그 '어느 정도'로는 안 된다.

쿠키의 기억력이 완벽하다면 괜찮겠지만 이것저것 다 섞이기 때문에 정확한 정보가 나오는게 아니라 아 그거 어디서 봤는데 어디였더라? '나 혼자만 레벨업'에서 봤던가? 아닌데 이 문제는 분명 '혈의누'인데

머릿속에 있는 것만으로는 부족했다.
공부했던걸 체계적으로 정리해서 그걸 머리에서 빼낼 수 있는 능력.
쿠키한테 없던 능력이었다.

2020년 Lewis et al.은 외부 문서를 찾아 근거와 함께 생성하는 RAG를 일단 정식화 했다.
~~아무것도 섭취하지 않음~~.
시험 중에 머릿속에 있는 그 어떤것을 확인하고, 그걸 보고 답을 적는 그런거.

이게 RAG다.

1. 벼락치기의 한계 — 같은 교과서를 읽었는데 왜 성적이 다른가

쿠키는 교과서를 통째로 머릿속에 압축해서 저장하고,
시험칠 때 기억나는 대로 꺼내서 답을 적는다.

같은 걸 배웠는데 왜 점수가 안 나오냐면:

① 외운 게 섞인다 (할루시네이션)

벼락치기로 외운 거라 기억이 뒤엉킨다.
"임진왜란이... 1592년? 아니 1597년이었나? 아 그건 병자호란인가?"
일단 잘 모르겠는데 답은 한다.. 그게 할루시네이션이다.

② 응용이 안 된다

분명 각운동량 보존법칙을 읽어서 머릿속에 넣었는데 그걸 이용해서 뭔가를 증명하거나 거기 나오는 계산방법을 응용해서 답을 추출하지 못한다
문제를 읽고 그 문제가 요구하는것을 머릿속에 있는것에서 뽑아내는 훈련이 안 돼있다.

③ 모르는 걸 모른다고 못 한다

쿠키는 모르는 문제가 나와도 일단 뭔가를 쓴다.
일단 찍어서 맞추는게 더 확률이 높은데 아는걸 짜맞춰서 쓰다보니까 그냥 틀려버린다.

2. RAG는 사실상 마인드팰리스를 만드는거다.

~~비유적으로는 마인드팰리스에 가깝지만, 엄밀히는 외부 문서를 색인해 둔 오픈북 시스템에 가깝다.~~

RAG = Retrieval-Augmented Generation

쿠키의 수능 공부 방식 전환으로 풀면 이렇다:

단계	수능에서	RAG에서
1단계	문제를 읽는다	사용자 질문(Query)을 받는다
2단계	머리에 정리된 지식을 체계적으로 훑는다	검색 엔진(Retriever)이 문서 DB에서 관련 문서를 가져온다
3단계	찾은 자료를 근거로 답을 쓴다	LLM(Generator)이 검색된 문서를 참고해서 답변을 생성한다

벼락치기 쿠키(기존 LLM): 문제 → 머릿속에서 꺼냄 → 답
공부하는 쿠키(RAG): 문제 → 자료 찾음 → 읽음 → 근거 기반으로 답

핵심은 "찾아보고 답한다"는 것이다.

3. 마인드팰리스는 어떻게 만드는가 — Retriever

셜록 홈즈가 마인드팰리스에서 어떻게 하냐면.

~~일단 어떠한것을 섭취한다~~ 그러면 이제 머릿속으로 들어간다, 그리고 정신차려보면 머릿속 궁전에 방이 수천 개 있다. 질문이 들어오면 수천 개 방을 다 돌아볼 수 없으니까,
가장 관련 있는 방의 문을 열어야 한다.

논문에서 쓴 방법은 DPR(Dense Passage Retriever)이다.

쉽게 말하면:

모든 지식을 의미가 비슷한걸로 벡터공간에 흩어놓는다 (임베딩)
질문이 들어오면 그 질문도 같은 공간에 던져본다
가장 질문이랑 가까이 붙은 방을 찾아서 문을 연다

벼락치기 쿠키는 머릿속에 일단 뭔가 들어가있는데 뭐가 어딨는지 알 수가 없다
마인드팰리스 쿠키는 방마다 뭔가 비슷한것끼리 뭉쳐있다. 필요한 걸 그래도 어느정도는 찾을 수 있다.

4. 방에서 꺼낸 걸로 답을 쓴다 — Generator

자 이제 관련 있는 방을 찾아서 문을 열었더니 뭔가 있는건 맞다.
이걸로 답을 써야한다.

쿠키가 시험장에서 하는 과정을 생각해보면:
1. 문제를 읽는다
2. 마인드팰리스에서 "아 이거 저쪽 방에 있었는데" 하고 방을 연다
3. 방 안에 있는 내용이랑 문제를 같이 보면서 답안을 작성한다

이게 벼락치기 쿠키랑 다른 점이다. 벼락치기 쿠키는 3번에서 "방 안에 있는 내용"이 없다. 그냥 흐릿한 기억으로 때려맞춘다. 마인드팰리스 쿠키는 정리된 자료를 펼쳐놓고 쓴다.

RAG도 똑같다:
1. 질문을 받는다
2. Retriever가 관련 문서를 가져온다
3. 질문 + 검색된 문서를 LLM에게 같이 넘겨서 답변을 생성한다

논문에서 Generator로 쓴 모델은 BART라는 건데, 솔직히 뭘 썼냐는 중요하지 않다. 중요한 건 기억만으로 답하는 게 아니라 자료를 펼쳐놓고 답한다는것이다.

5. 쿠키의 성적표 — 논문의 핵심 결과

그래서 마인드팰리스를 만든 쿠키의 성적이 어떻게 바뀌었냐면:

항목	벼락치기 쿠키 (기존 LLM)	마인드팰리스 쿠키 (RAG)
지식 질의응답	기억만으로 답함	정리된 자료에서 찾아서 답함
팩트 검증	"아마 맞을걸?"	"이거 이 방 이 선반에 있었음"
지식 업데이트	머릿속 전체를 다시 외워야 함	해당 방 자료만 바꾸면 됨
성적	중상위권	오픈도메인 QA 주요 벤치마크에서 SOTA를 기록

여기서 진짜 중요한 건 세 가지다:

쿠키 머리를 뜯어고치지 않아도(재학습 없이) 방에 있는 자료만 갈아끼우면 지식이 업데이트된다
"이거 어디서 봤는데..." 가 아니라 "이 방 이 선반에서 가져왔음"이라고 말할 수 있다 (근거 제시)
'나 혼자만 레벨업'이랑 '혈의 누'가 섞이는 일이 줄어든다 — 기억을 짜맞추는 게 아니라 정리된 자료를 보고 답 하기 때문이다.

6. 그래서 나는 프로젝트에서 이걸 이렇게 썼다

원 논문의 아이디어를 보고 마인드팰리스 쿠키처럼 좀 응용해서 복지나침반에서 검색 파이프라인을 설계할 때 확신이 생겼다.

문제: "27살인데 월세 지원 받고 싶어요" 같은 질문에 LLM이 머릿속에서 정책을 지어내면 안 된다. 없는 정책을 있다고 하면 서비스 신뢰도가 떨어진다.

적용: 정책 데이터를 검색 가능한 DB에 넣고, 질문이 들어오면 관련 정책을 먼저 찾고(Retrieve), 찾은 정책을 근거로 답변을 생성(Generate)하는 RAG 파이프라인을 구축했다.

결과: 검색 단계에서 BM25+Dense 앙상블에 BGE Reranker를 결합하여 Hit@5 84.3%를 달성했고, 자격 판정은 LLM이 아니라 규칙 기반 엔진으로 분리하여 할루시네이션을 차단했다.

벼락치기 쿠키(LLM 단독)한테 복지 상담을 시키면 여기저기 섞여있는 답변을 지어낸다.
마인드팰리스 쿠키(RAG)한테 시키면 실제 정책 DB에서 일단 찾아보고 그걸로 답을 한다.
이 차이는 서비스의 신뢰도를 가르는 기준이기 때문에 특히 공공서비스에서는 아주 중요하다고 생각한다.

이 비유의 한계

실제 RAG의 마인드팰리스는 완벽하지 않다. 어떤 방 문을 여느냐에 따라 답이 완전히 달라지기 때문에, 검색의 품질이 답변의 상한을 결정한다. 마인드팰리스를 지었다고 끝이 아니라, 방을 얼마나 잘 찾느냐가 핵심이다.

엉뚱한 방을 열면 답도 엉뚱해진다. 쿠키가 '임진왜란' 방을 열어야 하는데 '병자호란' 방을 열면 답이 틀린다. 그래서 검색을 잘하는 게 RAG에서 가장 중요한 문제.

아 우리 쿠키 진짜 머리는 좋다니까?ㅋㅋ

다음 논문

Hybrid Dense-Sparse Retrieval for High-Recall Information Retrieval (2026)
→ 쿠키가 마인드팰리스에서 방을 찾는 방법이 한 가지가 아니라는 걸 깨닫는다
→ 라벨로 찾기(BM25)와 느낌으로 찾기(Dense)를 합치면 더 잘 찾는다는 걸 수학적으로 증명한 논문

평생 애처럼 살고싶습니다

이전 포스트

Finding Structure in Time

다음 포스트