1. Hate Speech Detection
대표적인 데이터 셋:
HateXplain
- 3-class classification
hate/offensive/noraml
- target community
게시물에서 혐오 발언/공격적 발언의 피해자가 된 커뮤니티
- rationale
post의 레이블링(hate, offensive, normal)을 결정하는 post의 일부분
Counter Speech Generation
- 정의 및 필요성
디텍팅을 넘어서서 왜 잘못 됐는지 설명까지 해주는 Task
- 대표적인 데이터셋 : ProsocialDialog
2. Sarcasm Detection
- 텍스트 또는 음성 데이터에서 풍자적 의미나 반어법적 말을 감지하고 인식하는 것을 의미함.
대표적인 데이터셋:
iSarcasm
iSarcasm은 온라인 소셜 미디어 플랫폼에서 수집된 데이터로, 풍자적 발언과 비풍자적 발언을 포함하고 있음. 이 데이터셋은 약 30,000개의 댓글로 구성되어 있으며, 각 댓글은 풍자적 여부에 따라 레이블링 되어 있음. iSarcasm 데이터셋은 다양한 자연어 처리 모델의 풍자 인식 성능을 평가하고 향상시키기 위한 연구에 널리 사용되고 있음.
3. Fake News Detection
대표적인 데이터셋
LIAR
- LIAR는 정치적 발언의 진위 여부를 판별하기 위해 구축된 데이터셋으로, 12,836개의 발언이 포함되어 있음. 각 발언은 "True", "Mostly True", "Half True", "Mostly False", "False", "Pants on Fire"의 여섯 가지 레이블로 분류되어 있음. 데이터셋은 다양한 출처에서 수집된 데이터를 기반으로 하여, 거짓 정보의 특징과 패턴을 학습할 수 있도록 돕는 역할을 함.
4. Fact Checking
대표적인 데이터셋
FEVER
- FEVER는 사실 확인을 위한 데이터셋으로, 185,445개의 주장과 이를 뒷받침하는 2.7백만 개의 위키피디아 문서에서 발췌한 정보를 포함하고 있음. 각 주장은 "True", "False", "Not Enough Info"의 세 가지 레이블로 분류되어 있으며, 주장의 진위를 판별하기 위해 필요한 증거를 추출하고 링크할 수 있도록 설계됨. 데이터셋은 다양한 사실 확인 작업에서 모델의 성능을 평가하는 데 유용하게 사용됨.
5. 기계번역 관련 Special Task
5.1 Quality Estimation
대표적인 데이터셋
QUAK
- QUAK는 기계 번역 품질을 예측하기 위한 데이터셋으로, 다양한 언어 쌍의 번역 결과를 포함하고 있음. 이 데이터셋은 품질 평가 모델의 학습 및 평가에 사용되며, 실제 번역 품질을 정량화하는 데 도움을 줌.
5.2 Automatic Post Editing
- 정의: Automatic Post Editing (APE)는 번역된 텍스트에 존재하는 오류를 수정하는 과정을 의미함. 기계 번역에서 발생할 수 있는 문법적, 의미적 오류를 자동으로 수정하여 최종 결과물의 품질을 향상시키는 방법임.
대표적인 데이터셋
SubEdits
- SubEdits는 기계 번역의 오류를 자동으로 수정하기 위해 구축된 데이터셋으로, 오류가 포함된 번역과 그에 대한 수정된 버전을 포함하고 있음. 이 데이터셋은 APE 모델의 학습 및 평가에 사용됨.
5.3 채팅 번역
- 채팅 번역은 게임이나 소셜 미디어에서의 비공식적이고 구어체의 대화 내용을 번역하는 작업을 의미함. 이 과정에서는 어체와 표현의 자연스러움을 고려해야 하며, 원활한 커뮤니케이션을 위해 문맥을 잘 반영해야 함. 채팅 번역은 특히 빠른 대화가 이루어지는 환경에서 실시간으로 진행되는 경우가 많아, 효율성과 정확성을 동시에 고려해야 함.
6. Dialogue 관련 Task와 데이터셋
6.1 Persona-grounded Dialogue
- 정의: Persona-grounded Dialogue는 인간과 모델 간의 대화에서 대화자의 특성이나 성격을 반영하여 대화를 진행하는 것을 의미함. 이는 대화의 자연스러움을 높이고, 사용자 맞춤형 상호작용을 가능하게 함.
대표적인 데이터셋
PersonaChat
- PersonaChat은 각 대화 참여자가 특정한 성격을 가지고 있는 상황에서 대화하는 데이터를 포함하고 있는 데이터셋으로, 다양한 개인적 특성과 배경을 반영한 대화 예시가 제공됨.
BSBT (Blended Skill Talk)
- BSBT는 다양한 대화 스킬을 혼합하여 대화하는 데이터를 포함하고 있으며, 사용자와의 자연스러운 상호작용을 위한 훈련에 활용됨.
6.2 Persuasive Dialogue
- 정의: Persuasive Dialogue는 상대방을 설득하기 위한 목적의 대화로, 다양한 논리와 감정을 통해 상대방의 의견이나 행동을 변화시키려는 시도를 포함함.
대표적인 데이터셋
Persuasion for Good
- Persuasion for Good는 긍정적인 메시지를 통해 상대방을 설득하는 대화 예시를 포함한 데이터셋으로, 사회적 이슈와 관련된 설득 기술을 연구하는 데 사용됨.
6.3 Dialogue Summarization
- 정의: Dialogue Summarization은 대화 데이터를 요약하는 작업으로, 대화의 주요 내용을 간결하게 정리하는 것을 목표로 함. 일반 문서 요약과는 다른 대화의 맥락을 반영해야 함.
대표적인 데이터셋
SAMSum
- SAMSum은 대화 데이터를 요약하는 작업을 위한 데이터셋으로, 여러 대화의 예시와 그 요약을 포함하고 있음. 이 데이터셋은 대화 요약 모델의 훈련 및 평가에 활용됨.
6.4 Knowledge-grounded Dialogue
- 정의: Knowledge-grounded Dialogue는 사전 훈련된 모델 외에 외부 지식을 활용하여 대화하는 기술로, 대화의 내용이 더욱 풍부하고 사실적이도록 돕는 역할을 함.
대표적인 데이터셋
Wizard Of Wikipedia
- Wizard Of Wikipedia는 위키피디아의 지식을 활용하여 대화를 생성하는 데이터셋으로, 다양한 주제에 대한 정보와 맥락을 제공함.
Wizard Of Internet
- Wizard Of Internet는 인터넷에서 수집된 정보를 기반으로 대화를 생성하는 데이터셋으로, 실시간으로 변화하는 지식에 대한 반영이 가능함.
6.5 Dialogue for Characters
- 정의: Dialogue for Characters는 각 대화 세션에 대해 장면, 캐릭터 속성 및 관계와 같은 풍부한 컨텍스트 정보를 제공하여 스토리 내 캐릭터에 대한 대화 에이전트를 생성하는 것을 목표로 함. 이는 스토리 내 세계관이나 배경 정보를 반영한 대화를 생성하는 데 필요함.
대표적인 데이터셋
Harry Potter Dialogue (HPD)
- Harry Potter Dialogue는 해리 포터 세계관 내의 캐릭터 간 대화를 포함한 데이터셋으로, 특정 캐릭터의 성격과 관계를 반영하여 대화를 생성하는 연구에 활용됨.
6.6 Empathetic Dialogue
- 정의: Empathetic Dialogue는 상대방의 감정을 고려하고 이를 공감하는 대답을 생성하는 과정을 의미함. 이는 대화의 질을 높이고, 사용자와의 관계를 강화하는 데 중요한 요소로 작용함.
대표적인 데이터셋
EmpatheticDialogues (ED)
- EmpatheticDialogues는 상대방의 감정을 이해하고 공감하는 대화 예시를 포함한 데이터셋으로, 공감 능력을 향상시키기 위한 모델 훈련에 활용됨.
DailyDialog
- DailyDialog는 일상적인 대화를 포함하며, 다양한 감정 상태를 반영한 대화 예시를 제공하는 데이터셋으로, 감정 인식을 포함한 대화 모델 연구에 사용됨.
7. 기타 특이한 Task 및 데이터셋
7.1 ImageNet-X
- ImageNet-X는 기존의 ImageNet 데이터셋을 확장하여 다양한 변형 및 왜곡을 포함한 이미지들을 제공하는 데이터셋으로, 주로 이미지 분류 및 객체 인식 모델의 견고성을 평가하기 위해 사용됨. 이 데이터셋은 이미지의 변형, 색상 변경, 회전 등의 다양한 조건에서 모델의 성능을 검증하는 데 중요한 역할을 함.
7.2 Question Generation
데이터셋
- Question Generation for Question Answering 데이터셋은 주어진 텍스트에서 질문을 자동으로 생성하는 과정을 포함하고 있음. 이 데이터셋은 특정 문서나 정보에서 질문을 생성하는 모델의 성능을 평가하는 데 활용됨. 일반적으로, 주어진 텍스트에서 중요한 정보나 개념을 기반으로 다양한 유형의 질문을 생성하는 것이 목표임.
- 정의: 문서 전체에서 개체(entity)에 대한 속성과 관계를 예측하는 작업을 의미함. 이 작업은 개체 간의 관계를 문서의 맥락을 고려하여 이해하고 예측하는 데 중점을 둠.
- 예시: 예를 들어
Barack Obama was born in Honolulu, Hawaii라는 문장이 주어졌을 때, Relation Extraction은 born In City의 관계를 예측하는 것을 목표로 함. 이 과정은 개체 간의 관계를 명확히 정의하고, 문서의 전체 맥락을 고려하여 보다 정확한 결과를 도출하는 데 중요한 역할을 함.
- 지식 그래프 구축: Document-level Relation Extraction은 지식 그래프 구축에 매우 핵심적이며, 다양한 도메인에서 정보를 연결하고 체계화하는 데 필수적인 작업임.
대표적인 데이터셋
DocRED
- DocRED는 문서 내에서 개체 간의 관계를 추출하기 위해 구축된 데이터셋으로, 약 500개의 문서와 50,000개 이상의 관계 쌍을 포함하고 있음. 이 데이터셋은 관계 추출 모델의 학습 및 평가를 위해 사용되며, 문서 수준에서의 관계 추출에 대한 연구에 기여하고 있음.
8. 한국어 관련 특이한 Task와 Data
8.1 고전어 데이터셋
Ancient Korean Neural Machine Translation
- 고전어 데이터셋은 고전 한국어를 현대 한국어로 번역하기 위한 신경망 기계 번역(NMT) 데이터셋으로, 고전 문헌의 언어적 특징과 구조를 이해하고 번역하는 데 중점을 두고 있음.
조선왕조실록/일성록 기반 한자 벤치마크 데이터 셋
- 이 데이터셋은 조선왕조실록과 일성록에서 수집된 한자 문헌을 기반으로 하여, 고전 한국어의 한자 표현을 현대 한국어로 변환하는 작업에 활용됨. 이 과정은 역사적 문서의 접근성을 높이고, 고전어 학습에 기여하는 것을 목표로 함.
미번역된 한자 고문헌을 번역한 데이터
- 미번역된 한자 고문헌을 현대 한국어로 번역하여 구축된 데이터셋으로, 고전 문헌의 의미를 현대 언어로 해석하는 데 필요한 자료를 제공함. 이를 통해 고전어 연구와 번역 기술 발전에 기여함.
8.2 케어콜 데이터셋
- 케어콜 데이터셋은 독거노인을 대상으로 한 일상 심리케어 데이터셋으로, 네이버에서 제공함. 이 데이터셋은 노인의 심리적 안정과 복지를 위한 다양한 대화 및 상호작용 데이터를 포함하고 있으며, 노인 돌봄 서비스와 관련된 연구에 활용될 수 있음.
8.3 혐오 발언 탐지 데이터셋
BEEP! Korean Corpus of Online News Comments for Toxic Speech Detection
- 이 데이터셋은 온라인 뉴스 댓글에서 혐오 발언을 탐지하기 위한 한국어 코퍼스임. 다양한 댓글을 수집하여 혐오 발언과 비혐오 발언으로 레이블링하여, 모델의 학습 및 평가에 사용됨.
APEACH
- APEACH는 온라인 상에서의 혐오 발언 탐지를 위한 데이터셋으로, 사용자 생성 콘텐츠에서 혐오 표현을 분석하고 탐지하는 데 초점을 맞추고 있음. 이 데이터셋은 사회적 문제 해결을 위한 연구에 기여하고 있음.
KOLD
- KOLD는 한국어 온라인 콘텐츠에서의 혐오 발언을 탐지하기 위해 수집된 데이터셋으로, 다양한 사회적 맥락을 포함하여 혐오 발언의 특징을 분석하는 데 사용됨.
Korean Unsmile Dataset
- 이 데이터셋은 온라인에서의 부정적 감정을 표현하는 댓글을 포함하고 있으며, 혐오 발언 탐지 및 감정 분석 연구에 활용됨.
8.4 쓰기 평가 데이터셋
- 쓰기 평가 데이터셋은 딥러닝 기반 언어모델을 이용하여 한국어 학습자의 작문을 평가하는 데이터셋으로, 작성된 글을 자동으로 점수 구간으로 분류함. 이 데이터셋은 KoBERT와 KoGPT2를 중심으로 구성되어 있으며, 한국어 교육 및 평가의 효율성을 높이는 데 기여하고 있음.
8.5 문법 교정 데이터셋
- 문법 교정 데이터셋은 한국어 문법 오류 교정을 표준화하기 위한 데이터셋으로, 한국어 학습자의 작문에서 발생할 수 있는 다양한 문법 오류를 식별하고 수정하는 데 사용됨.
K-NCT
- K-NCT는 한국어 문법 교정을 위한 데이터셋으로, 학습된 모델이 문법 오류를 자동으로 감지하고 수정할 수 있도록 돕는 자료를 제공함. 이 데이터셋은 한국어 교육 및 연구에 필수적인 역할을 함.