Bigdata
Open doamin dataset
Closed domain은 특정 분야에서 더 정확하고 신뢰할 수 있는 결과를 제공할 수 있지만, 해당 도메인 외의 질문에는 제한적입니다.
특정 주제나 특정 분야를 갖는 데이터셋
- 의료, 법률, 금융 등 같이
전문성을 갖는 특정 분야의 데이터
- 어휘와 컨텍스트가
제한적이고 일관성
- 데이터의 구조가 비교적
명확하고 예측 가능
- 예시: 특정 질병의 진단 데이터, 법률 문서 데이터베이스
- 데이터셋:
- MSMARCO
- NaturalQuestions
- HotpotQA
- TriviaQA
- SQuAD
Closed domain dataset
Open domain은 더 유연하고 다양한 질문에 대응할 수 있지만, 특정 분야의 전문성은 상대적으로 낮을 수 있습니다.
- 주제나 분야의 제한 없이
광범위한 데이터
일상적인 대화, 일반 지식, 다양한 주제를 다룸
- 어휘와 컨텍스트가 매우 다양하고 광범위함
- 데이터의 구조가 더
복잡하고 예측하기 어려움
- 예시: 위키피디아, 소셜 미디어 데이터, 뉴스 기사 컬렉션
- PubHealth
- SciFact
- CORD-19
- USPTO Patents
- FinQA