[Bigdata] Open domain Dataset & Closed domain

JAsmine_log·2025년 2월 19일

Bigdata

Open doamin dataset

Closed domain은 특정 분야에서 더 정확하고 신뢰할 수 있는 결과를 제공할 수 있지만, 해당 도메인 외의 질문에는 제한적입니다.

  • 특정 주제특정 분야를 갖는 데이터셋
  • 의료, 법률, 금융 등 같이 전문성을 갖는 특정 분야의 데이터
  • 어휘와 컨텍스트가 제한적이고 일관성
  • 데이터의 구조가 비교적 명확하고 예측 가능
  • 예시: 특정 질병의 진단 데이터, 법률 문서 데이터베이스
  • 데이터셋:
    • MSMARCO
    • NaturalQuestions
    • HotpotQA
    • TriviaQA
    • SQuAD

Closed domain dataset

Open domain은 더 유연하고 다양한 질문에 대응할 수 있지만, 특정 분야의 전문성은 상대적으로 낮을 수 있습니다.

  • 주제나 분야의 제한 없이 광범위한 데이터
  • 일상적인 대화, 일반 지식, 다양한 주제를 다룸
  • 어휘와 컨텍스트가 매우 다양하고 광범위함
  • 데이터의 구조가 더 복잡하고 예측하기 어려움
  • 예시: 위키피디아, 소셜 미디어 데이터, 뉴스 기사 컬렉션
    • PubHealth
    • SciFact
    • CORD-19
    • USPTO Patents
    • FinQA
profile
Everyday Research & Development

0개의 댓글