NSMC (Naver Sentiment Movie Corpus): 2015년 네이버 영화 리뷰 데이터를 기반으로 감성 분석 모델 학습을 위한 데이터셋으로 제작됨. 긍정과 부정 레이블이 포함된 텍스트 데이터로, 감정 분석 연구에 중요한 역할을 함.
챗봇용 데이터: 2010년대 중반에 챗봇 개발을 위해 구축된 데이터셋으로, 자연스러운 대화 모델 학습을 위해 다양한 응답 패턴과 문맥을 포함함.
감정 분석 데이터: 텍스트 데이터에 대한 감정 분석 연구를 위해 구축된 데이터셋으로, 문장의 감정을 긍정, 부정, 중립으로 분류하여 감성 분석 모델 학습에 사용됨.
Sci-news-sum-kr: 과학 뉴스 요약 데이터셋으로, 과학 기사를 요약하여 텍스트 요약 모델 개발에 활용됨.
욕설 데이터: 2010년대 후반에 혐오 표현 탐지 및 필터링 모델 학습을 위해 부적절한 표현과 욕설 데이터를 수집한 데이터셋임.
Korean News Comments: 다양한 주제의 한국어 뉴스 댓글 데이터를 포함한 데이터셋으로, 텍스트 분석 및 여론 분석에 사용됨.
우리말샘 (국립국어원): 2020년 초반 국립국어원이 주관한 대규모 한국어 어휘 사전 구축 프로젝트로, 한국어 어휘와 용례를 포함하여 AI와 언어학 연구에 중요한 자료로 활용됨.
모두의 말뭉치 (국립국어원): 국립국어원이 구축한 대규모 한국어 텍스트 데이터셋으로, 언어학 연구와 인공지능 연구에 활용할 수 있는 방대한 데이터를 제공함.
AI HUB (NIA): 한국 정보통신산업진흥원(NIA)이 운영하는 플랫폼으로, AI 모델 학습에 필요한 다양한 분야의 데이터셋을 제공하며, 텍스트, 이미지, 음성 등 다양한 데이터 유형을 포함함.
KorQuAD (LG CNS): LG CNS가 주도한 한국어 질문 응답 데이터셋으로, 한국어 자연어 이해와 질문 응답 모델 학습에 사용됨.
KorSTS, KorNLI (kakaobrain): 카카오브레인이 구축한 한국어 문장 유사도(KorSTS)와 자연어 추론(KorNLI) 데이터셋으로, 문장 간 관계 분석 및 유사도 측정 모델 개발에 활용됨.
KLUE (Upstage): 업스테이지가 주도한 한국어 언어 이해 평가 데이터셋으로, 다양한 자연어 처리 태스크에 대한 평가 기준을 제공함.
KOBEST (SKT): SK텔레콤에서 구축한 데이터셋으로, 한국어 문장 관계 판단 및 의미 이해를 위한 데이터셋을 제공함.
한국 형태소 사전: 한국어 형태소 분석을 위해 개발된 사전으로, 형태소 기반 언어 분석 모델 학습에 활용됨.
| 연도 | 이름 | 종류 | 설명 |
|---|---|---|---|
| 2018 | LASER | Data Encoder | 다국어 문장 표현을 위한 언어-불가지론적 인코딩 방법론. 93개 언어에 대한 효율적인 문장 표현을 생성함. |
| 2019 | WMT-19 | Evaluation Dataset | 다국어 기계 번역 성능을 측정하기 위한 대규모 평가 데이터셋. 영어 외 여러 언어에 대한 번역 성능 평가에 사용됨. |
| 2019 | Flores v1 | Evaluation Dataset | 저자원 언어를 포함한 다양한 언어 쌍 간 번역 성능 평가를 위해 설계된 데이터셋으로, 특히 저자원 언어 연구에 유용함. |
| 2019 | WikiMatrix | Data Construction | 85개 언어의 문장-문장 대응 번역 데이터를 제공하는 데이터셋. 언어 모델 훈련에 필요한 데이터로 활용됨. |
| 2020 | M2M-100 | Model | 직접적으로 100개 언어 간 번역을 수행할 수 있는 최초의 다국어 번역 모델. 저자원 언어까지 지원하는 장점을 가짐. |
| 2020 | CCMatrix | Data Construction | 100개 언어에 대한 대규모 문장-문장 데이터셋으로, 고품질 다국어 번역 데이터를 제공함. |
| 2020 | LASER2 | Data Encoder | 100개 이상의 언어를 자동으로 일치시키는 문장 표현을 제공하는 인코더로 확장된 버전. |
| 2021 | WMT-21 | Model | 14개 언어 쌍에 대해 다국어 기계 번역 성능을 평가하며, 영어와 비영어 언어의 번역 품질 향상을 도모함. |
| 2021 | FLORES-101 | Evaluation Dataset | 101개 언어에 대한 다대다 평가를 지원하는 다국어 번역 평가 데이터셋. M2M-100 모델 개선에 기여함. |
| 2022 | NLLB-200 | Model | 200개 언어를 지원하는 NLLB 모델로 FLORES-200에서 평가됨. |
| 2022 | FLORES-200 | Evaluation Dataset | FLORES 평가 데이터셋의 확장판으로, 200개 언어를 포함하여 다국어 번역 성능 평가에 사용됨. |
| 2022 | NLLB-Data-200 | Data Construction | 200개 언어에 대한 훈련 데이터로, 다국어 번역 모델 훈련에 필요한 데이터를 제공함. |