Data-Centric(4): NLP 데이터 소개

SeongGyun Hong·2024년 10월 29일

NaverBoostCamp

목록 보기
16/64

1. 국내 데이터 구축 흐름

  • 국가 주도
  • 기업 주도
  • 개인 및 학계 주도

1990년대

  • 21세기 세종 계획 (국립국어원): 1995년에 시작된 대규모 한국어 언어 자원 구축 프로젝트로, 한국어 텍스트 데이터를 수집하고 정제하여 한국어 연구와 개발의 기초 자료로 활용됨.

2000년대 중반

  • KAIST Corpus (KAIST): 한국과학기술원(KAIST)에서 구축한 초기 한국어 데이터셋으로, 자연어 처리 및 한국어 언어 연구를 위한 자료로 제공됨.

2010년대

  • NSMC (Naver Sentiment Movie Corpus): 2015년 네이버 영화 리뷰 데이터를 기반으로 감성 분석 모델 학습을 위한 데이터셋으로 제작됨. 긍정과 부정 레이블이 포함된 텍스트 데이터로, 감정 분석 연구에 중요한 역할을 함.

  • 챗봇용 데이터: 2010년대 중반에 챗봇 개발을 위해 구축된 데이터셋으로, 자연스러운 대화 모델 학습을 위해 다양한 응답 패턴과 문맥을 포함함.

  • 감정 분석 데이터: 텍스트 데이터에 대한 감정 분석 연구를 위해 구축된 데이터셋으로, 문장의 감정을 긍정, 부정, 중립으로 분류하여 감성 분석 모델 학습에 사용됨.

  • Sci-news-sum-kr: 과학 뉴스 요약 데이터셋으로, 과학 기사를 요약하여 텍스트 요약 모델 개발에 활용됨.

  • 욕설 데이터: 2010년대 후반에 혐오 표현 탐지 및 필터링 모델 학습을 위해 부적절한 표현과 욕설 데이터를 수집한 데이터셋임.

2020년대

  • Korean News Comments: 다양한 주제의 한국어 뉴스 댓글 데이터를 포함한 데이터셋으로, 텍스트 분석 및 여론 분석에 사용됨.

  • 우리말샘 (국립국어원): 2020년 초반 국립국어원이 주관한 대규모 한국어 어휘 사전 구축 프로젝트로, 한국어 어휘와 용례를 포함하여 AI와 언어학 연구에 중요한 자료로 활용됨.

  • 모두의 말뭉치 (국립국어원): 국립국어원이 구축한 대규모 한국어 텍스트 데이터셋으로, 언어학 연구와 인공지능 연구에 활용할 수 있는 방대한 데이터를 제공함.

  • AI HUB (NIA): 한국 정보통신산업진흥원(NIA)이 운영하는 플랫폼으로, AI 모델 학습에 필요한 다양한 분야의 데이터셋을 제공하며, 텍스트, 이미지, 음성 등 다양한 데이터 유형을 포함함.

  • KorQuAD (LG CNS): LG CNS가 주도한 한국어 질문 응답 데이터셋으로, 한국어 자연어 이해와 질문 응답 모델 학습에 사용됨.

  • KorSTS, KorNLI (kakaobrain): 카카오브레인이 구축한 한국어 문장 유사도(KorSTS)와 자연어 추론(KorNLI) 데이터셋으로, 문장 간 관계 분석 및 유사도 측정 모델 개발에 활용됨.

  • KLUE (Upstage): 업스테이지가 주도한 한국어 언어 이해 평가 데이터셋으로, 다양한 자연어 처리 태스크에 대한 평가 기준을 제공함.

  • KOBEST (SKT): SK텔레콤에서 구축한 데이터셋으로, 한국어 문장 관계 판단 및 의미 이해를 위한 데이터셋을 제공함.

  • 한국 형태소 사전: 한국어 형태소 분석을 위해 개발된 사전으로, 형태소 기반 언어 분석 모델 학습에 활용됨.

2. NLP, NLU, NLG의 구분

2.1 NLP (Natural Language Processing, 자연어 처리)

  • 개념: 인간 언어를 기계가 이해하고 처리할 수 있도록 다루는 포괄적인 분야. 텍스트나 음성 데이터를 구조화하고 분석하는 기술을 포함함.
  • 주요 작업: 텍스트 전처리, 문서 분류, 토큰화, 품사 태깅, 감정 분석, 기계 번역, 언어 모델링 등.
  • 특징: 데이터 수집과 분석을 포함해 언어 처리 전반의 모든 단계에 걸쳐 널리 사용됨.

2.2 NLU (Natural Language Understanding, 자연어 이해)

  • 개념: 기계가 텍스트의 의미와 문맥을 이해하는 능력을 개발하는 분야. 문장 내 숨겨진 의미나 의도 파악에 집중함.
  • 주요 작업: 개체 인식, 의도 분류, 문장 해석, 질문 응답, 대화 시스템에서의 의미 분석 등.
  • 특징: 텍스트를 단순히 읽는 것이 아니라 그 의미를 이해하고 사용자의 의도에 맞는 반응을 생성하는 데 중점이 있음. NLU는 NLP의 하위 분야로 간주됨.

2.3 NLG (Natural Language Generation, 자연어 생성)

  • 개념: 기계가 인간이 이해할 수 있는 자연어 텍스트를 생성하는 기술. 주어진 데이터나 정보를 바탕으로 자연스럽게 언어를 만들어냄.
  • 주요 작업: 텍스트 요약, 대화 생성, 자동 보고서 작성, 소설/시 생성, 기계 번역 등.
  • 특징: 데이터를 언어로 변환해 사람이 이해할 수 있는 형태로 표현하는 데 중점을 둠.

3. Multilingual BenchMark Timeline

연도이름종류설명
2018LASERData Encoder다국어 문장 표현을 위한 언어-불가지론적 인코딩 방법론. 93개 언어에 대한 효율적인 문장 표현을 생성함.
2019WMT-19Evaluation Dataset다국어 기계 번역 성능을 측정하기 위한 대규모 평가 데이터셋. 영어 외 여러 언어에 대한 번역 성능 평가에 사용됨.
2019Flores v1Evaluation Dataset저자원 언어를 포함한 다양한 언어 쌍 간 번역 성능 평가를 위해 설계된 데이터셋으로, 특히 저자원 언어 연구에 유용함.
2019WikiMatrixData Construction85개 언어의 문장-문장 대응 번역 데이터를 제공하는 데이터셋. 언어 모델 훈련에 필요한 데이터로 활용됨.
2020M2M-100Model직접적으로 100개 언어 간 번역을 수행할 수 있는 최초의 다국어 번역 모델. 저자원 언어까지 지원하는 장점을 가짐.
2020CCMatrixData Construction100개 언어에 대한 대규모 문장-문장 데이터셋으로, 고품질 다국어 번역 데이터를 제공함.
2020LASER2Data Encoder100개 이상의 언어를 자동으로 일치시키는 문장 표현을 제공하는 인코더로 확장된 버전.
2021WMT-21Model14개 언어 쌍에 대해 다국어 기계 번역 성능을 평가하며, 영어와 비영어 언어의 번역 품질 향상을 도모함.
2021FLORES-101Evaluation Dataset101개 언어에 대한 다대다 평가를 지원하는 다국어 번역 평가 데이터셋. M2M-100 모델 개선에 기여함.
2022NLLB-200Model200개 언어를 지원하는 NLLB 모델로 FLORES-200에서 평가됨.
2022FLORES-200Evaluation DatasetFLORES 평가 데이터셋의 확장판으로, 200개 언어를 포함하여 다국어 번역 성능 평가에 사용됨.
2022NLLB-Data-200Data Construction200개 언어에 대한 훈련 데이터로, 다국어 번역 모델 훈련에 필요한 데이터를 제공함.
profile
헤매는 만큼 자기 땅이다.

0개의 댓글