핵심 요약
RefinedWeb은 대규모 웹 크롤링 데이터만으로 고성능 대형언어모델(LLM)을 학습할 수 있음을 실험적으로 입증한 데이터 파이프라인 및 데이터셋이다. 기존의 The Pile 같은 큐레이션 코퍼스를 능가하는 성능을 보이면서, 5조(token) 규모로 확장 가능한 웹 전용 전처리·중복제거 방법(MDR)을 제안한다[1].
1. 배경 및 동기
- 대형언어모델의 성능은 모델 규모와 학습 데이터 규모의 동시 확장에 크게 의존한다.
- 그러나 고품질의 수작업 큐레이션 데이터(책, 논문, 소셜미디어 대화 등)는 한정적이며 라이선스 이슈가 발생할 수 있다.
- 웹 크롤링 데이터(CommonCrawl)는 무제한에 가깝지만, 필터링과 중복제거가 부족하여 과거에는 큐레이션 코퍼스를 보완용으로만 여겨졌다[1].
2. MacroData Refinement(MDR) 파이프라인
MDR은 세 단계로 구성되며, 각 단계마다 엄격한 필터링과 대규모 중복제거를 적용하여 웹 데이터 품질을 획기적으로 향상시킨다[1].
2.1 문서 준비(Document Preparation)
1) WARC 원시 파일 처리
warcio 라이브러리로 HTML 페이지 로드
2) URL 필터링
- 4.6M 도메인 블록리스트 + 키워드 기반 URL 점수화
- 위키피디아·arXiv 등 고품질 사이트는 의도적으로 제외
3) 본문 추출(Text Extraction)
trafilatura로 메뉴·광고 제거 후 주요 텍스트만 추출
4) 언어 식별(Language Identification)
- fastText 기반 CCNet 분류기로 영어 문서만 선별(Score≥0.65)
2.2 필터링(Filtering)
1) 반복 제거(Repetition Removal)
- 문장·단어 반복 과다 문서 폐기
2) 문서 단위 필터링(Document-wise)
- 길이, 기호·단어 비율 등 휴리스틱 적용
3) 행 단위 정제(Line-wise Corrections)
- SNS 카운터·네비게이션 버튼 등 불필요 라인 제거
- 해당 제거가 문서의 5%超일 경우 전체 폐기
2.3 중복제거(Deduplication)
1) 퍼지 중복제거(Fuzzy; MinHash)
- 5-그램 기반 9,000 해시, 20 버킷 사용
- 템플릿화된 라이선스·SEO 스팸 제거
2) 정확 중복제거(Exact; Suffix Array)
- 50개 연속 토큰 일치 시 해당 구간 제거
3) URL 중복제거(URL Deduplication)
- 서로 다른 CommonCrawl 덤프 간 동일 URL 문서 제거
필터링 후 문서 수는 원본의 23%로 감소하며, 중복제거까지 거치면 최종 데이터는 약 5조 토큰 규모로 정제된다[1].
3. 실험 및 결과
3.1 소규모 모델 비교
- 1B·3B 파라미터 모델을 27G·60G 토큰으로 학습
- OSCAR·C4·The Pile 대비 zero-shot 정확도에서 RefinedWeb 기반 모델이 최고 성능 기록
- 예: 3B@60G에서 RefinedWeb 기반 59.8%, C4 59.6%, The Pile 57.9%[1].
3.2 대규모 모델 비교
- 1B·7B 모델을 350G 토큰으로 학습
- main-agg, core-agg, ext-agg 벤치마크 평가
- GPT-3 시리즈, PaLM, OPT 등 사설·공개 모델과 비교 시 동급 성능 달성
- RefinedWeb만으로 GPT-3 API 성능을 매칭하거나 초과[1].
3.3 MDR 일반화 가능성
- C4·OSCAR·The Pile에 MDR의 필터링·중복제거를 적용
- 필터링 효과는 데이터셋별 튜닝 필요하나, 중복제거는 모든 데이터에 일관된 성능 향상 기여[1].
4. 기여 및 한계
- 기여:
- 웹 데이터 전용, 최소 인력 개입으로 5조 토큰 규모 학습 데이터 확보
- 중복제거에 의한 모델 일반화 성능 개선 입증
- 600B 토큰 공개 버전 및 1.3/7.5B 파라미터 모델 공개
- 한계:
- 여전한 웹 콘텐츠편향성(bias), 독성(toxicity) 문제 잔존
- 비영어 데이터 확장 시 언어별 필터링 튜닝 필요[1].
5. 결론
웹 크롤링 데이터만으로도 엄격한 필터링과 대규모 중복제거를 통해, 기존의 수작업 큐레이션 코퍼스를 뛰어넘는 데이터 품질과 모델 성능을 확보할 수 있음을 RefinedWeb이 입증했다. 이는 향후 LLM 확장 시 데이터 확보 병목을 해소할 핵심 기술로 평가된다.
출처
[1][2306.01116] The RefinedWeb Dataset for Falcon LLM https://arxiv.org/abs/2306.01116