RAG(Retrieval-Augmented Generation)와 같은 “검색 기반 + 생성형 AI” 프레임워크에서, 동일 프롬프트를 반복 사용하거나 복사-붙여넣기 방식으로 반복 입력했을 때의 문제점을 MAD(MODEL AUTOPHAGY DISORDER) 현상, 그리고 샘플링 편향과 연결지어 아래와 같이 설명드릴 수 있습니다.
RAG 구조에서는 유저 프롬프트→검색→생성의 루프가 돌게 되는데
동일/유사 프롬프트가 반복
“같은 질의→동일한 검색 결과+유사 생성 결과”의 순환이 발생
사용자는 점차적으로 다양성이 떨어지는 비슷한 답변만 얻을 가능성이 커짐
만약 이런 답변(생성 결과)이 또다시 후속 학습, 또는 검색 데이터로 유입된다면
자체적으로 생성된 지식만을 계속 참조/증폭
→ 앞서 소개한 ‘자가포식 루프’와 유사하게, 참신한 정보가 줄어들고, 지식 편협화, 정보 왜곡 가능성 커짐
자주 반복되는 프롬프트 내용,/혹은 반복된 생성 결과들이
실제 검색 시스템(예: 사내 위키, 오픈노트, 심지어 인터넷)에 축적되면
상위 노출 빈도가 높아지고,
→ 다음 RAG 질의에서도 이 컨텐츠가 반복적으로 리트리브됨
→ 신규/희귀 정보의 검색 확률이 급격히 줄어듦
이 과정이 반복될수록,
샘플링 편향(‘이것만 잘 나온다’ ‘자주 찾으니 믿을만하다’ 착각)이 심화
결국 결과의 품질·신뢰성보다 ‘자주 쓴 내용’이 지배적이 됨
샘플링 편향에 빗대 설명
동일 프롬프트 반복은 “모든 케이스 중 특정 답만 계속 강화·선별하는 것”
표면적으로 정답률은 좋아보일 수 있지만,
다양한 케이스에 대한 응답 능력, 참신·의미 있는 답변의 폭이 줄어듦
결과적으로,
기존에 잘 작동했던 프롬프트/생성 결과로만 회귀하면서
새롭거나 예외적인 질의, 또는 역동적인 환경 변화에 취약해짐
자주 복붙하는 FAQ/템플릿 프롬프트, 사내 지식DB에 누적
오픈 Q&A 커뮤니티
학습형 챗봇/문서봇
유저 피드백 혹은 자체 기록 데이터에 복제된 답변이 누적
자기 레퍼런스를 무의식적으로 강화 → 신뢰성, 창의성 저하
다양성/창의성 저하
지식 생태계 퇴행:
신뢰성 저하
프롬프트 다양화: 사용/테스트 프롬프트를 최대한 다양하게 준비, 실제 사용 환경도 다양화
실제 신규 데이터 유입: 주기적으로 외부(새로운) 데이터, 문서, 사례를 추가
검색/학습 데이터의 중복 감시: 반복되는 프롬프트, 답변, 또는 생성 결과가 과도하게 학습/피드백에 반영되는지 모니터링
다양성 평가 지표 도입: 생성 답변의 다양성·참신성·희귀도 등도 정기적으로 체크
검색 결과·생성 결과가 또다시 RAG 원본에 누적되는 순환 고리를 막을 기술적 장치 구축
AI 생성 결과와 실제 인간/외부 데이터 구분·필터링
동일한 프롬프트의 반복적 활용과 답변 복제는, 결국 RAG 시스템도 “자가포식” 루프에 빠뜨려 정보 다양성과 창의성을 크게 해치고, 시간이 지날수록 신뢰성과 품질 저하 위험이 커질 수 있습니다.
늘 새로운 데이터를 주입하고, 프롬프트와 피드백/학습 샘플의 다양성을 인위적으로라도 유지하는 것이 핵심 예방책입니다.