LLM의 그럴듯함에 속지마라

포비·2026년 3월 9일

알아보자

목록 보기

29/111

잘 쓰는 문장과 맞는 답은 전혀 다른 문제다

LLM을 오래 쓰다 보면 이상한 순간이 온다.
틀린 답을 봤는데도, 처음 읽을 때는 맞는 말처럼 느껴지는 순간이다. 문장은 매끈하고, 구조는 논리적이고, 말투는 차분하다. 그래서 사람은 자꾸 착각한다.

“이 정도로 자연스럽게 말하면 맞겠지.”

그런데 LLM이 잘하는 것은 그럴듯하게 이어 말하는 것이지, 사실을 마지막 책임까지 보증하는 일이 아니다.

LLM은 지식창고가 아니라 확률 엔진이다

많은 사람이 아직도 LLM을 “거대한 지식창고”처럼 상상한다.
하지만 실제 작동 방식은 훨씬 덜 낭만적이다.

OpenAI가 2025년에 공개한 설명에 따르면 언어모델은 기본적으로 다음 단어를 예측하는 방식으로 학습된다.

즉,

문장마다 참/거짓 라벨이 붙어 있지 않다
모델은 사실 여부보다 확률적으로 자연스러운 단어를 고른다

연구 설명에서는 환각(hallucination)이 계속 남는 이유도 여기서 찾는다.

모델은 “모르겠다”라고 말하는 것보다 추측해서라도 답하는 쪽에 보상을 받기 쉽다.

결국 LLM은 이렇게 볼 수 있다.

정답 기계가 아니라 빈칸 채우기 기계

정확도와 신뢰성은 다른 문제다

여기서 중요한 문제가 하나 생긴다.

LLM은 틀릴 때도 틀린 티를 거의 내지 않는다.

OpenAI 연구 설명에서도 이런 문제가 지적된다.

리더보드에서 정확도만 강조하면 모델이 추측을 더 많이 하게 된다.

예를 들어 SimpleQA 평가에서 어떤 모델은:

정확도는 조금 높았지만
오류율은 훨씬 높았다

즉,

정확도 숫자가 높다고 해서 더 신뢰할 수 있는 모델이라는 뜻은 아니다.

모델이 학습하는 방식 때문에
“모른다”는 답보다 “그럴듯한 추측”이 더 많이 나오게 된다.

연구에서도 이미 확인된 문제

이 문제는 학계에서도 오래전부터 발견됐다.

ACL 2022의 TruthfulQA 논문은
LLM의 사실성(truthfulness)을 측정하기 위해 만들어진 벤치마크다.

질문 수: 817개
범주: 건강, 법, 금융, 정치 등 38개

결과는 꽤 충격적이었다.

대상	Truthfulness
인간	94%
당시 최고 모델	58%

더 흥미로운 사실도 있었다.

모델이 커질수록 오히려 덜 truthful한 경향이 나타났다.

연구진의 설명은 간단하다.

인터넷에는 잘못된 통념과 오해가 많다
모델은 그것까지 같이 학습한다

그래서 이런 일이 생긴다.

더 유창해진다고 해서 더 진실해지는 것은 아니다.

설득력은 정확성과 다르다

LLM의 진짜 위험은 단순히 틀린 답을 하는 것이 아니다.

틀린 답을 매우 설득력 있게 말한다.

2025년 Nature Human Behaviour 연구에서는 이런 결과가 나왔다.

GPT-4가 상대의 인구통계 정보를 활용해
개인화된 논거를 만들었을 때

인간보다 64.4% 더 설득적인 경우가 나타났다.

이 연구는 정확성을 측정한 것이 아니라
설득력을 측정했다.

그리고 바로 그 점이 핵심이다.

사람은 종종 다음에 설득된다.

매끈한 문장
맞춤형 어조
논리적인 구조

즉,

그럴듯함은 정확성의 증거가 아니다.

실제 사건: 존재하지 않는 판례

이 문제는 현실에서도 이미 여러 번 나타났다.

2023년 미국 뉴욕

변호사들이 ChatGPT가 만든 존재하지 않는 판례를
법원 서면에 넣었다.

판사는 다음과 같이 지적했다.

판례가 존재하지 않는다는 지적이 있었는데도
변호사들이 계속 그 판례를 주장했다

결과는 법원 제재였다.

2026년 특허 사건

로이터 보도에 따르면
AI가 만든 허위 인용과 부정확한 진술 때문에

판사는 변호사들에게

12,000달러 제재금

을 부과했다.

여기서 중요한 포인트는 이것이다.

출처까지 붙어 있으니 믿을 만하다

라는 인간의 습관이 무너진 것이다.

챗봇 때문에 실제로 돈을 잃은 사건

Air Canada 챗봇 사건 (2024)

캐나다에서 실제로 일어난 사건이다.

챗봇이 장례 할인 항공권 규정을 잘못 안내
이용자가 그 말을 믿고 표 구매
실제 규정과 달라 손해 발생

결과:

법원은 회사 책임이라고 판단했다.

여기서 중요한 점은 이것이다.

챗봇의 답이

이상한 말
말도 안 되는 문장

이 아니었다.

아주 정상적인 고객센터 안내문처럼 보였다.

뉴스 요약에서도 같은 문제

애플 뉴스 요약 기능 중단 (2025)

애플은 AI 뉴스 요약 기능을 일시 중단했다.

이유:

기사 내용을 왜곡
존재하지 않는 사실 생성

특히 BBC 관련 알림에서
잘못된 사건 설명이 전달되었다.

여기서 중요한 교훈이 하나 있다.

사람은 길게 읽을 때보다 짧게 읽을 때 더 쉽게 속는다.

검색에서도 나타난 문제

Google AI Overviews (2024)

구글은 일부 사례에서

웹페이지를 잘못 해석
부정확한 정보 생성

문제가 있었다고 인정했다.

검색 결과라는 형식은 사용자에게 이런 인상을 준다.

“검색이니까 검증된 정보겠지”

그래서 오히려 더 쉽게 믿게 된다.

대형 연구에서도 나타난 결과

2025년 BBC와 EBU가 진행한 연구:

AI 어시스턴트들이 뉴스 질문에 답한 3,000개 응답 분석

결과:

45% : 중대한 오류 포함
81% : 어떤 형태로든 문제 존재
20% : 큰 정확성 오류

특히 많이 나타난 문제

출처 누락
잘못된 인용
기사 내용 왜곡

즉,

“요즘 모델은 많이 좋아져서 뉴스는 믿어도 된다”

는 말은 아직 현실과 거리가 있다.

그래서 중요한 질문

LLM이 똑똑하냐는 질문보다
더 중요한 질문이 있다.

지금 내가 시키는 일이
그럴듯함과 정확성이 분리될 때도 안전한 일인가?

LLM이 잘하는 일 vs 위험한 일

잘하는 일

초안 작성
아이디어 발산
글 구조 정리
문장 개선
브레인스토밍

위험한 일

법률 인용
수치 확인
뉴스 요약
계약 조건
의료 / 금융 판단

2024년 Nature Human Behaviour 메타분석에서도
비슷한 결과가 나왔다.

106개 실험을 분석한 결과

창작 작업 → AI 도움 효과 있음
결정 작업 → 성능 오히려 감소

결론:

LLM은 판결문보다 초안에 더 적합하다.

RAG가 해결책일까?

많은 사람이 이렇게 말한다.

“그럼 RAG 붙이면 해결되는 거 아닌가?”

RAG는 환각을 줄이는 데 도움은 된다.

하지만 문제는 여전히 남는다.

검색 문서가 틀렸다면?
문맥이 맞지 않는다면?

그 결과:

근거가 있는 것처럼 보이는 오답

이 만들어질 수 있다.

그래서 필요한 것은 규칙이다

LLM을 사용할 때 필요한 것은
더 좋은 프롬프트가 아니라 사용 규칙이다.

1. 사실을 말하게 하지 말고 근거를 찾게 하라

틀린 방식
→ 이게 맞는지 말해줘

좋은 방식
→ 관련 근거를 찾아 요약해줘

2. 고유명사는 반드시 검증하라

특히 다음 정보는 따로 확인해야 한다.

사람 이름
회사명
날짜
금액
판례
숫자

3. 답변과 출처를 분리해서 보라

LLM은 다음을 동시에 만들 수 있다.

답
출처

그래서 둘 다 틀릴 수 있다.

4. “모르면 모른다” 규칙을 넣어라

모델이 항상 답하도록 만들면
추측이 늘어난다.

가장 위험한 사용자 태도

LLM을 쓸 때 가장 위험한 습관은 이것이다.

“대충 읽고 느낌 좋으면 채택”

그 순간 우리는

검증하는 사람이 아니라
문장 감상가

가 된다.

특히 다음 작업에서 위험하다.

기사 요약
회의 요약
정책 비교

짧고 단정한 문장이
가장 쉽게 사람을 속인다.

결국 필요한 능력

LLM 시대의 리터러시는
AI를 잘 쓰는 능력이 아니다.

AI의 말투에 속지 않는 능력

다음 원칙을 기억해야 한다.

문장이 자연스럽다고 믿지 말 것
단정적이라고 검증을 멈추지 말 것
출처가 있어도 확인할 것
설명이 멋질수록 의심할 것

설득력은 유용한 능력이다.

하지만

설득력 ≠ 진실

마지막 한 문장

LLM은 틀려서 위험한 것이 아니라
틀려도 너무 그럴듯해서 위험하다.

포비

무엇이든 필요한 것을 합니다. https://mint-middle-1e5.notion.site/2b7655e8316980ad9422d96a6f3947de