NLP 분야 특이한 Task 및 Data

홍찬우·2023년 7월 29일
0

Hate Speech & Offensive Language

Hate Speech Detection

  • 대화를 모니터링하여 사람들을 비하하거나 공격하는 언어를 차단하고 필터링

  • HaetXplain

    • 대표적인 Hate Speech dataset

    • hate/offensive/normal classification

    • rationale

      • post의 레이블링(hate, offensive, normal)을 결정하는 post 일부분
      • 가장 크게 기여한 text 일부를 marking해 데이터셋 공개

Counter Speech Generation

  • 허위 정보나 선동적인 내용을 확인한 뒤 모델이 이에 적극적인 방식으로 반박 및 대응하도록 함

  • ProsocialDialog

    • 대표적인 Counter Speech Generation dataset

    • 대응 발화 생성


Sarcasm Detection

  • 풍자적이고 반어법적 말을 감지하고 인식

  • iSarcasm

    • 대포적인 Sarcasm detection dataset

    • 데이터셋에 대체 표현까지 포함


Deception Detection

Fake News Detection

  • 가짜 뉴스와 진실의 차이를 구분

Fact Checking

  • 인터넷에서 유포되는 정보의 진실성 확인

  • 대표적인 dataset → FEVER


Machine Translation

Quality Estimation (QE)

  • 번역된 문장이 얼마나 자연스럽고 정확한지 측정

  • 여러 level로 나눠 예측 가능

  • QUAK

    • 대표적 QE dataset

Automatic Post Editing

  • 기계 번역 출력물을 자동 수정

  • source, 기계 번역 결과, 사람 수정 결과 3개의 data가 필요함

  • SubEdits

    • 대표적 APE dataset

Chat Translation

  • 채팅 번역 task

  • ㅋㅋㅋ, ㅎㅎ 등 채팅에서 쓰이는 단어에 특화


Dialogue

Persona-grounded Dialogue

  • 기존 대화 모델은 대화 내용과 주제에 대한 정보만 고려하여 응답 생성

  • Persona는 인간의 개인적 특징이나 성격을 반영한 대화

  • 참여자들에게 특정 직업, 성격, 상황을 부여해 dataset 제작

  • PersonaChat, BSBT

    • 대표적 Persona Dialogue dataset

Persuasive Dialogue

  • 모델이 상대방을 설득하고 자신 주장을 전달하기 위한 응답 발화 생성

  • 광고, 마케팅, 정치 등 분야에서 사용

  • Persuasion for Good

    • 건강 목표 달성, 재활용 등 특정 task에 대해 설득하는 dataset

    • 대표적 dataset


Dialogue Summarization

  • 대화 기록이나 대화 데이터 요약

  • 대화 기록이 많이 쌓인 고객상담같은 분야에서 요약을 활용해 효율성 증대

  • DialogSum & SASSum

    • 대표적 대화 요약 datasets

Knowledge-grounded Dialogue

  • Pre-trained model 외에 외부 지식을 별도로 활용해 대화하는 기술

  • 기학습 모델이 가지지 못하는 지식을 부여해 대화 지식 정확성 향상

    • e.g., ’한국에서 미국은 걸어서 갈 수 없다’는 인간은 알지만 모델은 모름
  • Wizard Of Wikipeida

    • 대표적 dataset

Dialogue for Characters

  • 스토리 내 캐릭터에 대한 dialogue agent 생성

  • Harry Porter Dialogue (HPD)

    • 대표적 dataset

Empathetic Dialogue

  • 상대방 감정을 고려하고 이를 공감하는 대답 생성

  • EmpatheticDialogues, EmpatheticDialogues

    • 대표적 datasets

기타 특이 task 및 data

ImageNet-X

  • 컴퓨터 비전 대표 dataset 중 하나인 ImageNet을 확장한 데이터셋

  • ImageNet에 실제 세계에서 발생하는 다양한 왜곡 요인을 추가하여 구축


Question Generation

  • 주어진 지문과 목표 답변에 따라 유효하고 유창한 질문을 생성

  • QA 시스템에서 중요한 구성 요소 중 하나


Document-level Relation Extraction

  • 문서 전체에서 개체와 관계를 추출

한국어 관련 특이 task 및 data

고전어 dataset

케어콜 dataset

혐오 발언 탐지 dataset

쓰기 평가 datset

문법 교정 dataset







※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※

profile
AI-Kid

0개의 댓글