Hate Speech Detection
대화를 모니터링하여 사람들을 비하하거나 공격하는 언어를 차단하고 필터링
HaetXplain
대표적인 Hate Speech dataset
hate/offensive/normal classification
rationale
Counter Speech Generation
허위 정보나 선동적인 내용을 확인한 뒤 모델이 이에 적극적인 방식으로 반박 및 대응하도록 함
ProsocialDialog
대표적인 Counter Speech Generation dataset
대응 발화 생성
Sarcasm Detection
풍자적이고 반어법적 말을 감지하고 인식
iSarcasm
대포적인 Sarcasm detection dataset
데이터셋에 대체 표현까지 포함
Fake News Detection
Fact Checking
인터넷에서 유포되는 정보의 진실성 확인
대표적인 dataset → FEVER
Quality Estimation (QE)
QUAK
Automatic Post Editing
기계 번역 출력물을 자동 수정
source, 기계 번역 결과, 사람 수정 결과 3개의 data가 필요함
SubEdits
Chat Translation
채팅 번역 task
ㅋㅋㅋ, ㅎㅎ 등 채팅에서 쓰이는 단어에 특화
Persona-grounded Dialogue
기존 대화 모델은 대화 내용과 주제에 대한 정보만 고려하여 응답 생성
Persona는 인간의 개인적 특징이나 성격을 반영한 대화
참여자들에게 특정 직업, 성격, 상황을 부여해 dataset 제작
PersonaChat, BSBT
Persuasive Dialogue
모델이 상대방을 설득하고 자신 주장을 전달하기 위한 응답 발화 생성
광고, 마케팅, 정치 등 분야에서 사용
Persuasion for Good
건강 목표 달성, 재활용 등 특정 task에 대해 설득하는 dataset
대표적 dataset
Dialogue Summarization
대화 기록이나 대화 데이터 요약
대화 기록이 많이 쌓인 고객상담같은 분야에서 요약을 활용해 효율성 증대
DialogSum & SASSum
Knowledge-grounded Dialogue
Pre-trained model 외에 외부 지식을 별도로 활용해 대화하는 기술
기학습 모델이 가지지 못하는 지식을 부여해 대화 지식 정확성 향상
Wizard Of Wikipeida
Dialogue for Characters
스토리 내 캐릭터에 대한 dialogue agent 생성
Harry Porter Dialogue (HPD)
Empathetic Dialogue
상대방 감정을 고려하고 이를 공감하는 대답 생성
EmpatheticDialogues, EmpatheticDialogues
ImageNet-X
컴퓨터 비전 대표 dataset 중 하나인 ImageNet을 확장한 데이터셋
ImageNet에 실제 세계에서 발생하는 다양한 왜곡 요인을 추가하여 구축
Question Generation
주어진 지문과 목표 답변에 따라 유효하고 유창한 질문을 생성
QA 시스템에서 중요한 구성 요소 중 하나
Document-level Relation Extraction
고전어 dataset
케어콜 dataset
혐오 발언 탐지 dataset
쓰기 평가 datset
문법 교정 dataset
※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※