위클리페이퍼(12) 할루시네이션, 모델 크기와 성능 관계, PEFT가 필요한 이유?

윤승호·2025년 7월 6일

◆ Q & A 요약

Q1. LLM이 생성한 텍스트에서 할루시네이션(Hallucination)이란 무엇이고, 왜 문제가 되나요? 여러 LLM 서비스들은 할루시네이션 문제를 어떻게 극복하려고 시도 중일까요? 구글링 등을 통해 자유롭게 리서치해보세요.
A1. 거짓을 진실처럼 대답하는 현상. 모르겠다고 대답하지 않고 확률적으로 가장 자연스러운 단어를 조합하기 때문. 이를 극복하기 위해 RAG(검색 기반), RLHF(인간 피드백) 등을 사용 중이다.

Q2. 모델 크기를 키우는 것만으로는 성능이 일정 시점 이후 둔화되는 이유는 무엇일까요?
A2. 고품질 데이터가 고갈되고 저품질 데이터만 남기 때문.

Q3. PEFT가 필요한 이유는 무엇이며, 어떤 상황에서 특히 효과적인가요?
A3. 모델 크기가 커진 요즘엔 기존의 전체 파인튜닝 방식이 비효율적이기 때문. 하나의 모델을 다양한 테스크에 활용하거나 빠르게 실험해야 할 때 효과적이다.


1. LLM이 생성한 텍스트에서 할루시네이션(Hallucination)이란 무엇이고, 왜 문제가 되나요? 여러 LLM 서비스들은 할루시네이션 문제를 어떻게 극복하려고 시도 중일까요? 구글링 등을 통해 자유롭게 리서치해보세요.

(1) Hallucination

A. 정의

  • LLM이 학습 데이터에 없거나 사실과 다른 내용을 마치 사실처럼 그럴듯하게 지어내는 '환각' 현상
  • "모르겠다"고 답하는 대신, 확률적으로 가장 자연스러운 단어들을 조합하여 허위 정보를 생성함

B. 문제점

  • 신뢰도 저하: 의료, 법률 등 전문 분야에서 잘못된 정보는 치명적인 결과를 초래할 수 있음
  • 가짜뉴스 확산: 그럴듯한 허위 정보가 대량 생산되어 사회적 혼란을 야기할 수 있음
  • 편향성 강화: 학습 데이터의 편향을 바탕으로 특정 집단에 대한 부정적인 허위 사실을 생성할 수 있음

(2) 극복 방안

A. 최신 극복 기술

  • 지식 연동: 모델 내부 지식에만 의존하지 않고, 신뢰할 수 있는 외부 데이터 소스(인터넷 검색 등)를 실시간으로 참조하여 답변을 생성
  • 출처 명시: 생성된 답변의 근거가 된 소스를 함께 표시하여 사용자가 직접 사실 여부를 검증(Fact-checking)하도록 지원
  • 인간 피드백: 사용자의 피드백을 모델 학습에 다시 반영하여 문제점을 지속적으로 개선

2. 모델 크기를 키우는 것만으로는 성능이 일정 시점 이후 둔화되는 이유는 무엇일까요?

(1) 둔화 원인

A. 고품질 데이터의 고갈

  • LLM의 성능은 결국 학습 데이터의 질과 양에 의해 결정됨
  • 인터넷상의 고품질 텍스트 데이터를 대부분 학습한 이후에는, 저품질 데이터를 추가로 학습시켜도 성능 향상이 미미하거나 오히려 저하됨
  • 최신 연구들은 모델 크기와 데이터 크기의 균형 있는 성장이 중요함을 시사함

B. 수확 체감의 법칙

  • 모델 크기를 2배로 키운다고 성능이 2배로 향상되지 않음
  • 일정 수준을 넘어서면 막대한 컴퓨팅 자원과 비용을 투입해도 성능은 아주 조금만 개선되는 현상이 발생함

3. PEFT가 필요한 이유는 무엇이며, 어떤 상황에서 특히 효과적인가요?

parameter-efficient fine tuning

(1) PEFT

A. 풀 파인튜닝(Full Fine-tuning)의 문제

  • 비용: 수천억 개 파라미터 전체를 학습시키기 위한 막대한 GPU 메모리와 시간 필요
  • 효율: 해결할 문제(Task)마다 수백 GB 크기의 모델을 별도로 저장해야 함
  • 망각: 새로운 작업을 학습하며 기존에 모델이 알고 있던 지식을 잊어버리는 문제 발생 가능

B. PEFT의 접근 방식

  • 거대한 LLM의 대부분(99.9%)은 그대로 두고(freeze), 아주 작은 일부(0.1%)의 파라미터만 새로 추가하거나 수정하는 방식
  • 대표적인 기법으로 LoRA(Low-Rank Adaptation)가 있음

(2) 주 활용 분야

  • 소규모 작업: 적은 자원으로 나만의 챗봇, 특정 스타일의 글쓰기 모델 개발 시
  • 다중 작업: 거대 모델 하나에 작업별 작은 PEFT 모듈(수십 MB)만 교체하여 효율적으로 사용
  • 신속한 실험: 짧은 학습 시간으로 다양한 아이디어를 빠르게 테스트하고 모델을 개선


◆ 해설

1. LLM이 생성한 텍스트에서 할루시네이션(Hallucination)이란 무엇이고, 왜 문제가 되나요? 여러 LLM 서비스들은 할루시네이션 문제를 어떻게 극복하려고 시도 중일까요? 구글링 등을 통해 자유롭게 리서치해보세요.

LLM이 생성한 텍스트에서 할루시네이션(Hallucination)이란, 모델이 실제로 존재하지 않는 정보나 사실과 다른 내용을 그럴듯하게 생성하는 현상을 말합니다. 예를 들어, 존재하지 않는 논문 제목을 만들어 내거나, 실제로는 관련 없는 사실을 연결해 설명하는 경우가 할루시네이션에 해당합니다.

이 문제는 특히 신뢰성과 정확성이 중요한 분야에서 큰 문제가 됩니다. 예를 들어, 의료, 법률, 금융 같은 도메인에서는 모델이 잘못된 정보를 사실처럼 말할 경우 치명적인 의사결정 오류로 이어질 수 있습니다. 또한, 모델이 허구의 정보를 스스로 '믿는 듯한' 문장으로 생성하기 때문에 사용자가 쉽게 속을 수 있다는 점도 위험 요소입니다.

LLM 서비스들이 할루시네이션 문제를 극복하기 위해 시도 중인 주요 접근 방식은 다음과 같습니다.

  • Retrieval-Augmented Generation (RAG)
    • 외부 지식 베이스나 문서를 검색한 뒤, 그 검색 결과를 기반으로 응답을 생성하는 방식입니다.
      이를 통해 모델은 내부의 불완전한 파라미터 지식에 의존하지 않고, 실시간 정보 기반으로 답변할 수 있게 됩니다.
  • Fact-checking 모델 또는 후처리 필터
    • 생성된 응답을 다시 검토하고, 신뢰도가 낮거나 사실과 불일치하는 문장을 제거하거나 수정하는 후처리 모델을 사용합니다.
  • 지식 기반 모델 정렬 (Alignment with Knowledge Bases)
    • LLM을 위키피디아, 논문 DB, 전문 도메인 지식 등 신뢰성 있는 데이터와 정렬시키는 방식입니다.
    • FLAN이나 InstructGPT 등도 사용자 의도에 맞는 사실 기반 응답을 유도하기 위해 학습 과정에서 지침(prompt instruction) 기반 학습을 적용합니다.
  • Human Feedback 기반 강화 학습 (RLHF)
    • 사람이 응답의 품질과 사실 여부를 평가한 피드백을 기반으로 모델을 조정합니다.
    • 이 과정은 LLM이 인간의 기대와 기준에 더 잘 맞도록 응답을 정렬(alignment)시키는 데 중요한 역할을 합니다.
  • 출처 명시 및 인용 기능 추가
    • 최근 일부 LLM 서비스에서는 응답에 인용한 웹사이트나 문서 링크를 함께 제공하여, 사용자가 직접 사실 여부를 검증할 수 있도록 유도하고 있습니다.

2. 모델 크기를 키우는 것만으로는 성능이 일정 시점 이후 둔화되는 이유는 무엇일까요?

모델 크기를 키우면 초기에는 성능이 눈에 띄게 좋아지지만, 일정 규모를 넘어서면 성능 향상 속도가 점점 느려지고 결국에는 거의 개선되지 않는 구간에 도달하게 됩니다. 이 현상에는 몇 가지 이유가 있습니다.

첫째, 학습 데이터의 한계입니다. 모델이 아무리 크더라도 학습할 수 있는 데이터가 부족하거나 품질이 낮으면 그 성능은 금방 한계에 부딪힙니다. 특히 데이터에 중복이 많거나 편향된 정보가 많으면, 큰 모델일수록 오히려 그 편향을 더 강하게 반영할 수 있습니다.

둘째, 모델이 학습한 정보 중에는 실제로 문제 해결에 도움이 되지 않는 정보도 포함되기 때문에, 모델이 커질수록 반드시 '좋은 정보만 더 많이' 배우는 것은 아닙니다. 오히려 불필요한 패턴이나 잡음을 과도하게 학습할 가능성도 있습니다.

셋째, 하드웨어 자원과 학습 비용의 문제도 있습니다. 모델이 커질수록 연산량과 메모리 사용량이 급격히 증가하므로, 학습 효율은 떨어지고 실제로 그만큼의 성능 향상을 얻기 어려워집니다. 즉, 비용 대비 성능 개선이 비효율적인 구간에 들어서는 거죠.

결국 성능을 계속 높이기 위해서는 단순히 모델 크기를 키우는 것만으로는 부족하고, 더 나은 데이터, 정렬 기법(Model Alignment), 지식 보강, 또는 프롬프트 설계와 같은 다양한 기술이 함께 사용되어야 합니다.


3. PEFT가 필요한 이유는 무엇이며, 어떤 상황에서 특히 효과적인가요?

PEFT가 필요한 이유는 대형 언어 모델을 실제 환경에 맞게 활용하려고 할 때, 기존의 전체 파인튜닝 방식이 너무 비효율적이고 부담이 크기 때문입니다.

기존 방식은 모델의 모든 파라미터를 다시 학습해야 하다 보니, 수많은 GPU 자원이 필요하고, 학습 시간도 오래 걸리며, 각각의 작업마다 전체 모델을 따로 저장해야 해서 저장 공간도 많이 차지합니다. 특히 사전학습 모델의 크기가 수십억에서 수천억 파라미터로 커진 요즘에는, 이 방식이 현실적으로 어렵습니다.

이럴 때 PEFT는 전체 모델을 그대로 두고, 일부 파라미터만 학습하거나 작은 모듈만 추가로 학습하는 방식이기 때문에 훨씬 가볍고 빠릅니다. 전체 모델의 1%도 안 되는 파라미터만 수정하면 되니까, 자원이 적은 환경에서도 쉽게 사용할 수 있습니다.

PEFT가 특히 효과적인 상황은 다음과 같습니다.

첫째, 하나의 모델을 다양한 작업에 재활용해야 할 때입니다. 예를 들어 챗봇, 문서 분류, 질의응답 같은 여러 태스크를 동시에 다뤄야 하는 경우, 각각을 위해 전체 모델을 다시 학습하는 것보다, 작은 파인튜닝 모듈만 따로 관리하는 방식이 훨씬 효율적입니다.

둘째, 빠르게 실험하고 반복해야 하는 환경에서도 유리합니다. 전체 모델을 학습하는 데 며칠씩 걸리는 대신, PEFT는 몇 시간 내에 끝날 수 있어 연구 속도와 반복 실험 속도를 크게 높일 수 있습니다.

셋째, 모델을 클라우드가 아닌 로컬, 모바일, 엣지 환경에서 돌려야 할 때도 좋습니다. 작은 모듈만 추가하면 되기 때문에, 저장 용량도 적고 실행 속도도 빠르기 때문입니다.

결국 PEFT는 자원을 절약하면서도 높은 성능을 유지하고, 다양한 환경에서 유연하게 모델을 활용할 수 있게 해주는 현실적인 해결책입니다.

profile
나는 AI 엔지니어가 된다.

0개의 댓글