이 글은 2024년 ICLR(국제 학습 표현 학회)에서 발표될 라이스대학교 AI 연구팀의 논문을 바탕으로, AI가 자체 생성 데이터를 반복적으로 사용해 새로운 AI를 학습시키는 방식의 위험성을 경고하는 내용입니다. 핵심 요점을 정리하면 다음과 같습니다.
AI가 생성한 데이터를 계속해서 AI가 학습하면, 품질과 다양성이 급격히 저하되는 현상.
인간의 ‘광우병(Mad Cow Disease)’에 빗대어 명명됨.
얼굴 합성 모델 실험 결과, 9세대 반복 후 눈에 띄는 품질 저하와 반복적 패턴, 다양성 축소가 나타남.
완전 합성 루프: 오직 AI 생성 데이터만 사용해 학습. MAD가 가장 빠르게 나타남.
합성 증강 루프: 실제 데이터와 AI 데이터 혼합. MAD 진행은 느리지만 필연적으로 품질 저하.
신선한 데이터 루프: 학습마다 새로운 실제 데이터를 투입. MAD를 방지 가능.
실험 결과, 샘플링 편향을 적용하면,
이미지의 즉각적인 품질(선명도, 노이즈 등)은 어느 정도 유지되었습니다.
하지만 이미지의 다양성(새롭고 독특한 샘플의 분포)은 오히려 더 빠르게 감소하는 현상이 나타났습니다.
즉, 표면적으로는 모델 성능(평균 품질)이 유지되지만, 실질적으로는 다양한 정보와 패턴을 만들 수 있는 능력이 손상되는 셈입니다.
AI 생성 데이터가 기하급수적으로 증가하면서,
추후 AI 모델 학습에 이런 2차 생성 데이터가 무분별하게 투입될 경우,
전체 인터넷 데이터의 품질과 다양성이 장기적으로 심각하게 저하될 수 있습니다.
이 문제의 심각성은 다음과 같은 실질적 위험으로 연결됩니다.
정보 신뢰성 위협
중대한 안전 문제
문화적 다양성·창의성 위축
신선한 실제 데이터 활용 극대화
AI 생성 데이터 비율의 엄격한 관리
샘플링 편향의 신중한 적용
단기적 품질 향상만을 위한 편향적 샘플 선정은 자제
필요하다면, 다양성 유지 전략(예: 다양한 카테고리에서 고르게 샘플링)과 병행해야 합니다.
정기적 품질·다양성 평가
모델이 생성하는 결과물의 품질과 다양성을 정기적으로 평가
MAD 초기 증상 발견 시, 즉시 데이터 구성 및 훈련 전략을 조정해야 합니다.
AI 생성 데이터 필터링/식별 기술 개발
학습 데이터셋 내 AI 생성 데이터와 실제 데이터를 구분, 식별하는 기술이 필요
이를 통해 모델이 본의 아니게 ‘자가포식 루프’에 빠지지 않도록 사전 차단할 수 있습니다.
이 연구는 ‘AI가 AI를 학습하는 것이 반드시 미래의 정답은 아니다’라는 점을 강하게 시사합니다. 현재처럼 AI 생성 데이터가 기하급수적으로 늘어나면, 단순 성능 저하를 넘어 “정보 생태계 전반의 왜곡” 가능성까지 내포하고 있습니다.
특히 실제 데이터 수급이 어려운 분야(의료 영상 등)에서는 이를 더욱 주의 깊게 고려해야 하며, 학계·기업·정책 입안자 모두 신중하고 장기적인 품질·다양성 관리 체계를 만들어야 함을 강조합니다.