NLP 분야 특이한 Task 및 Data

홍찬우·2023년 7월 29일

DL NLP 네이버 부스트캠프

Hate Speech & Offensive Language

Hate Speech Detection

대화를 모니터링하여 사람들을 비하하거나 공격하는 언어를 차단하고 필터링
HaetXplain
- 대표적인 Hate Speech dataset
- hate/offensive/normal classification
- rationale
  - post의 레이블링(hate, offensive, normal)을 결정하는 post 일부분
  - 가장 크게 기여한 text 일부를 marking해 데이터셋 공개

Counter Speech Generation

허위 정보나 선동적인 내용을 확인한 뒤 모델이 이에 적극적인 방식으로 반박 및 대응하도록 함
ProsocialDialog
- 대표적인 Counter Speech Generation dataset
- 대응 발화 생성

Sarcasm Detection

풍자적이고 반어법적 말을 감지하고 인식
iSarcasm
- 대포적인 Sarcasm detection dataset
- 데이터셋에 대체 표현까지 포함

Deception Detection

Fake News Detection

가짜 뉴스와 진실의 차이를 구분

Fact Checking

인터넷에서 유포되는 정보의 진실성 확인
대표적인 dataset → FEVER

Machine Translation

Quality Estimation (QE)

번역된 문장이 얼마나 자연스럽고 정확한지 측정

여러 level로 나눠 예측 가능

QUAK
- 대표적 QE dataset

Automatic Post Editing

기계 번역 출력물을 자동 수정
source, 기계 번역 결과, 사람 수정 결과 3개의 data가 필요함
SubEdits
- 대표적 APE dataset

Chat Translation

채팅 번역 task
ㅋㅋㅋ, ㅎㅎ 등 채팅에서 쓰이는 단어에 특화

Dialogue

Persona-grounded Dialogue

기존 대화 모델은 대화 내용과 주제에 대한 정보만 고려하여 응답 생성
Persona는 인간의 개인적 특징이나 성격을 반영한 대화
참여자들에게 특정 직업, 성격, 상황을 부여해 dataset 제작
PersonaChat, BSBT
- 대표적 Persona Dialogue dataset

Persuasive Dialogue

모델이 상대방을 설득하고 자신 주장을 전달하기 위한 응답 발화 생성
광고, 마케팅, 정치 등 분야에서 사용
Persuasion for Good
- 건강 목표 달성, 재활용 등 특정 task에 대해 설득하는 dataset
- 대표적 dataset

Dialogue Summarization

대화 기록이나 대화 데이터 요약
대화 기록이 많이 쌓인 고객상담같은 분야에서 요약을 활용해 효율성 증대
DialogSum & SASSum
- 대표적 대화 요약 datasets

Knowledge-grounded Dialogue

Pre-trained model 외에 외부 지식을 별도로 활용해 대화하는 기술
기학습 모델이 가지지 못하는 지식을 부여해 대화 지식 정확성 향상
- e.g., ’한국에서 미국은 걸어서 갈 수 없다’는 인간은 알지만 모델은 모름
Wizard Of Wikipeida
- 대표적 dataset

Dialogue for Characters

스토리 내 캐릭터에 대한 dialogue agent 생성
Harry Porter Dialogue (HPD)
- 대표적 dataset

Empathetic Dialogue

상대방 감정을 고려하고 이를 공감하는 대답 생성
EmpatheticDialogues, EmpatheticDialogues
- 대표적 datasets

기타 특이 task 및 data

ImageNet-X

컴퓨터 비전 대표 dataset 중 하나인 ImageNet을 확장한 데이터셋
ImageNet에 실제 세계에서 발생하는 다양한 왜곡 요인을 추가하여 구축

Question Generation

주어진 지문과 목표 답변에 따라 유효하고 유창한 질문을 생성
QA 시스템에서 중요한 구성 요소 중 하나

Document-level Relation Extraction

문서 전체에서 개체와 관계를 추출

한국어 관련 특이 task 및 data

고전어 dataset

케어콜 dataset

혐오 발언 탐지 dataset

쓰기 평가 datset

문법 교정 dataset

※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※

홍찬우

AI-Kid

이전 포스트