
LLM을 오래 쓰다 보면 이상한 순간이 온다.
틀린 답을 봤는데도, 처음 읽을 때는 맞는 말처럼 느껴지는 순간이다. 문장은 매끈하고, 구조는 논리적이고, 말투는 차분하다. 그래서 사람은 자꾸 착각한다.
“이 정도로 자연스럽게 말하면 맞겠지.”
그런데 LLM이 잘하는 것은 그럴듯하게 이어 말하는 것이지, 사실을 마지막 책임까지 보증하는 일이 아니다.
많은 사람이 아직도 LLM을 “거대한 지식창고”처럼 상상한다.
하지만 실제 작동 방식은 훨씬 덜 낭만적이다.
OpenAI가 2025년에 공개한 설명에 따르면 언어모델은 기본적으로 다음 단어를 예측하는 방식으로 학습된다.
즉,
연구 설명에서는 환각(hallucination)이 계속 남는 이유도 여기서 찾는다.
모델은 “모르겠다”라고 말하는 것보다 추측해서라도 답하는 쪽에 보상을 받기 쉽다.
결국 LLM은 이렇게 볼 수 있다.
정답 기계가 아니라 빈칸 채우기 기계
여기서 중요한 문제가 하나 생긴다.
LLM은 틀릴 때도 틀린 티를 거의 내지 않는다.
OpenAI 연구 설명에서도 이런 문제가 지적된다.
리더보드에서 정확도만 강조하면 모델이 추측을 더 많이 하게 된다.
예를 들어 SimpleQA 평가에서 어떤 모델은:
즉,
정확도 숫자가 높다고 해서 더 신뢰할 수 있는 모델이라는 뜻은 아니다.
모델이 학습하는 방식 때문에
“모른다”는 답보다 “그럴듯한 추측”이 더 많이 나오게 된다.
이 문제는 학계에서도 오래전부터 발견됐다.
ACL 2022의 TruthfulQA 논문은
LLM의 사실성(truthfulness)을 측정하기 위해 만들어진 벤치마크다.
결과는 꽤 충격적이었다.
| 대상 | Truthfulness |
|---|---|
| 인간 | 94% |
| 당시 최고 모델 | 58% |
더 흥미로운 사실도 있었다.
모델이 커질수록 오히려 덜 truthful한 경향이 나타났다.
연구진의 설명은 간단하다.
그래서 이런 일이 생긴다.
더 유창해진다고 해서 더 진실해지는 것은 아니다.
LLM의 진짜 위험은 단순히 틀린 답을 하는 것이 아니다.
틀린 답을 매우 설득력 있게 말한다.
2025년 Nature Human Behaviour 연구에서는 이런 결과가 나왔다.
GPT-4가 상대의 인구통계 정보를 활용해
개인화된 논거를 만들었을 때
이 연구는 정확성을 측정한 것이 아니라
설득력을 측정했다.
그리고 바로 그 점이 핵심이다.
사람은 종종 다음에 설득된다.
즉,
그럴듯함은 정확성의 증거가 아니다.
이 문제는 현실에서도 이미 여러 번 나타났다.
변호사들이 ChatGPT가 만든 존재하지 않는 판례를
법원 서면에 넣었다.
판사는 다음과 같이 지적했다.
결과는 법원 제재였다.
로이터 보도에 따르면
AI가 만든 허위 인용과 부정확한 진술 때문에
판사는 변호사들에게
12,000달러 제재금
을 부과했다.
여기서 중요한 포인트는 이것이다.
출처까지 붙어 있으니 믿을 만하다
라는 인간의 습관이 무너진 것이다.
캐나다에서 실제로 일어난 사건이다.
결과:
법원은 회사 책임이라고 판단했다.
여기서 중요한 점은 이것이다.
챗봇의 답이
이 아니었다.
아주 정상적인 고객센터 안내문처럼 보였다.
애플은 AI 뉴스 요약 기능을 일시 중단했다.
이유:
특히 BBC 관련 알림에서
잘못된 사건 설명이 전달되었다.
여기서 중요한 교훈이 하나 있다.
사람은 길게 읽을 때보다 짧게 읽을 때 더 쉽게 속는다.
구글은 일부 사례에서
문제가 있었다고 인정했다.
검색 결과라는 형식은 사용자에게 이런 인상을 준다.
“검색이니까 검증된 정보겠지”
그래서 오히려 더 쉽게 믿게 된다.
2025년 BBC와 EBU가 진행한 연구:
AI 어시스턴트들이 뉴스 질문에 답한 3,000개 응답 분석
결과:
특히 많이 나타난 문제
즉,
“요즘 모델은 많이 좋아져서 뉴스는 믿어도 된다”
는 말은 아직 현실과 거리가 있다.
LLM이 똑똑하냐는 질문보다
더 중요한 질문이 있다.
지금 내가 시키는 일이
그럴듯함과 정확성이 분리될 때도 안전한 일인가?
2024년 Nature Human Behaviour 메타분석에서도
비슷한 결과가 나왔다.
106개 실험을 분석한 결과
결론:
LLM은 판결문보다 초안에 더 적합하다.
많은 사람이 이렇게 말한다.
“그럼 RAG 붙이면 해결되는 거 아닌가?”
RAG는 환각을 줄이는 데 도움은 된다.
하지만 문제는 여전히 남는다.
그 결과:
근거가 있는 것처럼 보이는 오답
이 만들어질 수 있다.
LLM을 사용할 때 필요한 것은
더 좋은 프롬프트가 아니라 사용 규칙이다.
틀린 방식
→ 이게 맞는지 말해줘
좋은 방식
→ 관련 근거를 찾아 요약해줘
특히 다음 정보는 따로 확인해야 한다.
LLM은 다음을 동시에 만들 수 있다.
그래서 둘 다 틀릴 수 있다.
모델이 항상 답하도록 만들면
추측이 늘어난다.
LLM을 쓸 때 가장 위험한 습관은 이것이다.
“대충 읽고 느낌 좋으면 채택”
그 순간 우리는
가 된다.
특히 다음 작업에서 위험하다.
짧고 단정한 문장이
가장 쉽게 사람을 속인다.
LLM 시대의 리터러시는
AI를 잘 쓰는 능력이 아니다.
AI의 말투에 속지 않는 능력
다음 원칙을 기억해야 한다.
설득력은 유용한 능력이다.
하지만
설득력 ≠ 진실
LLM은 틀려서 위험한 것이 아니라
틀려도 너무 그럴듯해서 위험하다.