Q1. LLM이 생성한 텍스트에서 할루시네이션(Hallucination)이란 무엇이고, 왜 문제가 되나요? 여러 LLM 서비스들은 할루시네이션 문제를 어떻게 극복하려고 시도 중일까요? 구글링 등을 통해 자유롭게 리서치해보세요.
A1. 거짓을 진실처럼 대답하는 현상. 모르겠다고 대답하지 않고 확률적으로 가장 자연스러운 단어를 조합하기 때문. 이를 극복하기 위해 RAG(검색 기반), RLHF(인간 피드백) 등을 사용 중이다.
Q2. 모델 크기를 키우는 것만으로는 성능이 일정 시점 이후 둔화되는 이유는 무엇일까요?
A2. 고품질 데이터가 고갈되고 저품질 데이터만 남기 때문.
Q3. PEFT가 필요한 이유는 무엇이며, 어떤 상황에서 특히 효과적인가요?
A3. 모델 크기가 커진 요즘엔 기존의 전체 파인튜닝 방식이 비효율적이기 때문. 하나의 모델을 다양한 테스크에 활용하거나 빠르게 실험해야 할 때 효과적이다.
A. 정의
B. 문제점
A. 최신 극복 기술
A. 고품질 데이터의 고갈
B. 수확 체감의 법칙
parameter-efficient fine tuning
A. 풀 파인튜닝(Full Fine-tuning)의 문제
B. PEFT의 접근 방식
LLM이 생성한 텍스트에서 할루시네이션(Hallucination)이란, 모델이 실제로 존재하지 않는 정보나 사실과 다른 내용을 그럴듯하게 생성하는 현상을 말합니다. 예를 들어, 존재하지 않는 논문 제목을 만들어 내거나, 실제로는 관련 없는 사실을 연결해 설명하는 경우가 할루시네이션에 해당합니다.
이 문제는 특히 신뢰성과 정확성이 중요한 분야에서 큰 문제가 됩니다. 예를 들어, 의료, 법률, 금융 같은 도메인에서는 모델이 잘못된 정보를 사실처럼 말할 경우 치명적인 의사결정 오류로 이어질 수 있습니다. 또한, 모델이 허구의 정보를 스스로 '믿는 듯한' 문장으로 생성하기 때문에 사용자가 쉽게 속을 수 있다는 점도 위험 요소입니다.
LLM 서비스들이 할루시네이션 문제를 극복하기 위해 시도 중인 주요 접근 방식은 다음과 같습니다.
모델 크기를 키우면 초기에는 성능이 눈에 띄게 좋아지지만, 일정 규모를 넘어서면 성능 향상 속도가 점점 느려지고 결국에는 거의 개선되지 않는 구간에 도달하게 됩니다. 이 현상에는 몇 가지 이유가 있습니다.
첫째, 학습 데이터의 한계입니다. 모델이 아무리 크더라도 학습할 수 있는 데이터가 부족하거나 품질이 낮으면 그 성능은 금방 한계에 부딪힙니다. 특히 데이터에 중복이 많거나 편향된 정보가 많으면, 큰 모델일수록 오히려 그 편향을 더 강하게 반영할 수 있습니다.
둘째, 모델이 학습한 정보 중에는 실제로 문제 해결에 도움이 되지 않는 정보도 포함되기 때문에, 모델이 커질수록 반드시 '좋은 정보만 더 많이' 배우는 것은 아닙니다. 오히려 불필요한 패턴이나 잡음을 과도하게 학습할 가능성도 있습니다.
셋째, 하드웨어 자원과 학습 비용의 문제도 있습니다. 모델이 커질수록 연산량과 메모리 사용량이 급격히 증가하므로, 학습 효율은 떨어지고 실제로 그만큼의 성능 향상을 얻기 어려워집니다. 즉, 비용 대비 성능 개선이 비효율적인 구간에 들어서는 거죠.
결국 성능을 계속 높이기 위해서는 단순히 모델 크기를 키우는 것만으로는 부족하고, 더 나은 데이터, 정렬 기법(Model Alignment), 지식 보강, 또는 프롬프트 설계와 같은 다양한 기술이 함께 사용되어야 합니다.
PEFT가 필요한 이유는 대형 언어 모델을 실제 환경에 맞게 활용하려고 할 때, 기존의 전체 파인튜닝 방식이 너무 비효율적이고 부담이 크기 때문입니다.
기존 방식은 모델의 모든 파라미터를 다시 학습해야 하다 보니, 수많은 GPU 자원이 필요하고, 학습 시간도 오래 걸리며, 각각의 작업마다 전체 모델을 따로 저장해야 해서 저장 공간도 많이 차지합니다. 특히 사전학습 모델의 크기가 수십억에서 수천억 파라미터로 커진 요즘에는, 이 방식이 현실적으로 어렵습니다.
이럴 때 PEFT는 전체 모델을 그대로 두고, 일부 파라미터만 학습하거나 작은 모듈만 추가로 학습하는 방식이기 때문에 훨씬 가볍고 빠릅니다. 전체 모델의 1%도 안 되는 파라미터만 수정하면 되니까, 자원이 적은 환경에서도 쉽게 사용할 수 있습니다.
PEFT가 특히 효과적인 상황은 다음과 같습니다.
첫째, 하나의 모델을 다양한 작업에 재활용해야 할 때입니다. 예를 들어 챗봇, 문서 분류, 질의응답 같은 여러 태스크를 동시에 다뤄야 하는 경우, 각각을 위해 전체 모델을 다시 학습하는 것보다, 작은 파인튜닝 모듈만 따로 관리하는 방식이 훨씬 효율적입니다.
둘째, 빠르게 실험하고 반복해야 하는 환경에서도 유리합니다. 전체 모델을 학습하는 데 며칠씩 걸리는 대신, PEFT는 몇 시간 내에 끝날 수 있어 연구 속도와 반복 실험 속도를 크게 높일 수 있습니다.
셋째, 모델을 클라우드가 아닌 로컬, 모바일, 엣지 환경에서 돌려야 할 때도 좋습니다. 작은 모듈만 추가하면 되기 때문에, 저장 용량도 적고 실행 속도도 빠르기 때문입니다.
결국 PEFT는 자원을 절약하면서도 높은 성능을 유지하고, 다양한 환경에서 유연하게 모델을 활용할 수 있게 해주는 현실적인 해결책입니다.