할루시네이션
정의
발생 원인
- 학습 데이터가 불완전하거나 편향 : 제공된 데이터에 대한 제한된 이해에서 발생
- 과적합 : 적은 표본으로 학습하여 잘못된 일반화 발생
- 맥락 이해 부족 : 모델이 질의에 대해 잘못 이해한 경우
- 복잡한 모델 아키텍쳐 : 모델의 레이어가 복잡하고, 매개변수가 많은 모델이라면 복잡성이 증가하여 할루시네이션이 증가한다.
해결 방법
- 정규화를 이용하여 가능한 결과의 수를 제한 : 과적합으로 인한 잘못된 예측을 방지할 수 있다.
- 고품질의 학습데이터 제공 : 모델이 수행할 테스크와 관련된 데이터만을 제공하여 부정확한 데이터 제공을 제한한다.
- 템플릿 제공 : 학습시 모델이 따를 템플릿을 제공하여 일관된 학습 방식 제공
- NLP 기반 문맥 개선 : 명명 엔티티 인식 및 감정 분석과 같은 자연어 처리 기술을 통해 모델 효율 향상
- RLHF를 통한 보상 모델 개발 : 전문가가 모델 출력을 검토하고, 출력에 대한 피드백 과정을 통해 모델 고도화
그 밖에도 프롬프트엔지니어링, Fine-Tunning, RAG를 이용한 개선도 가능합니다.
우려 사항
- 너무 많은 학습데이터가 생기면 출처가 너무 많거나 모호해질 수 있다.
- 응답 지연에 대한 불만 : 데이터가 너무 많아져서 출력하는데 많은 시간이 소요될 수 있다.
- 답변의 경직 : 정확도를 높이기 위해 모델을 통제시키면 사용자는 일관된 답변만 확인하게 되어 다양한 정보 제공이 어려울 수 있다.
참고