Data-Centric(5): NLP 분야의 특이한 Data

SeongGyun Hong·2024년 10월 29일

NaverBoostCamp

목록 보기
17/64

1. Hate Speech Detection

대표적인 데이터 셋:

HateXplain

  • 3-class classification
    hate/offensive/noraml
  • target community
    게시물에서 혐오 발언/공격적 발언의 피해자가 된 커뮤니티
  • rationale
    post의 레이블링(hate, offensive, normal)을 결정하는 post의 일부분

Counter Speech Generation

  • 정의 및 필요성
    디텍팅을 넘어서서 왜 잘못 됐는지 설명까지 해주는 Task
  • 대표적인 데이터셋 : ProsocialDialog

2. Sarcasm Detection

  • 텍스트 또는 음성 데이터에서 풍자적 의미나 반어법적 말을 감지하고 인식하는 것을 의미함.

대표적인 데이터셋:

iSarcasm
iSarcasm은 온라인 소셜 미디어 플랫폼에서 수집된 데이터로, 풍자적 발언과 비풍자적 발언을 포함하고 있음. 이 데이터셋은 약 30,000개의 댓글로 구성되어 있으며, 각 댓글은 풍자적 여부에 따라 레이블링 되어 있음. iSarcasm 데이터셋은 다양한 자연어 처리 모델의 풍자 인식 성능을 평가하고 향상시키기 위한 연구에 널리 사용되고 있음.

3. Fake News Detection

대표적인 데이터셋

LIAR

  • LIAR는 정치적 발언의 진위 여부를 판별하기 위해 구축된 데이터셋으로, 12,836개의 발언이 포함되어 있음. 각 발언은 "True", "Mostly True", "Half True", "Mostly False", "False", "Pants on Fire"의 여섯 가지 레이블로 분류되어 있음. 데이터셋은 다양한 출처에서 수집된 데이터를 기반으로 하여, 거짓 정보의 특징과 패턴을 학습할 수 있도록 돕는 역할을 함.

4. Fact Checking

대표적인 데이터셋

FEVER

  • FEVER는 사실 확인을 위한 데이터셋으로, 185,445개의 주장과 이를 뒷받침하는 2.7백만 개의 위키피디아 문서에서 발췌한 정보를 포함하고 있음. 각 주장은 "True", "False", "Not Enough Info"의 세 가지 레이블로 분류되어 있으며, 주장의 진위를 판별하기 위해 필요한 증거를 추출하고 링크할 수 있도록 설계됨. 데이터셋은 다양한 사실 확인 작업에서 모델의 성능을 평가하는 데 유용하게 사용됨.

5. 기계번역 관련 Special Task

5.1 Quality Estimation

  • 정의: Quality Estimation (QE)는 기계 번역의 품질을 예측하는 과정을 의미함. 즉, 번역된 문장이 얼마나 자연스럽고 정확한지를 측정하는 기술로, 기계 번역의 성능을 평가하고 개선하는 데 중요한 역할을 함.

  • 판단 단위:

    • Sentence-level QE: 전체 문장을 단위로 하여 번역 품질을 평가하는 방법. 문장이 자연스럽고 의미가 전달되는지를 중심으로 평가함.
    • Word-level QE: 개별 단어를 기준으로 번역 품질을 판단하는 방법. 특정 단어의 번역이 올바른지 여부를 평가함.
    • MQM word-level QE: Multidimensional Quality Metrics (MQM) 기반으로 단어 수준에서 번역 품질을 평가하는 방법으로, 여러 품질 요소를 종합적으로 고려하여 점수를 매김.

대표적인 데이터셋

QUAK

  • QUAK는 기계 번역 품질을 예측하기 위한 데이터셋으로, 다양한 언어 쌍의 번역 결과를 포함하고 있음. 이 데이터셋은 품질 평가 모델의 학습 및 평가에 사용되며, 실제 번역 품질을 정량화하는 데 도움을 줌.

5.2 Automatic Post Editing

  • 정의: Automatic Post Editing (APE)는 번역된 텍스트에 존재하는 오류를 수정하는 과정을 의미함. 기계 번역에서 발생할 수 있는 문법적, 의미적 오류를 자동으로 수정하여 최종 결과물의 품질을 향상시키는 방법임.

대표적인 데이터셋

SubEdits

  • SubEdits는 기계 번역의 오류를 자동으로 수정하기 위해 구축된 데이터셋으로, 오류가 포함된 번역과 그에 대한 수정된 버전을 포함하고 있음. 이 데이터셋은 APE 모델의 학습 및 평가에 사용됨.

5.3 채팅 번역

  • 채팅 번역은 게임이나 소셜 미디어에서의 비공식적이고 구어체의 대화 내용을 번역하는 작업을 의미함. 이 과정에서는 어체와 표현의 자연스러움을 고려해야 하며, 원활한 커뮤니케이션을 위해 문맥을 잘 반영해야 함. 채팅 번역은 특히 빠른 대화가 이루어지는 환경에서 실시간으로 진행되는 경우가 많아, 효율성과 정확성을 동시에 고려해야 함.

6. Dialogue 관련 Task와 데이터셋

6.1 Persona-grounded Dialogue

  • 정의: Persona-grounded Dialogue는 인간과 모델 간의 대화에서 대화자의 특성이나 성격을 반영하여 대화를 진행하는 것을 의미함. 이는 대화의 자연스러움을 높이고, 사용자 맞춤형 상호작용을 가능하게 함.

대표적인 데이터셋

PersonaChat

  • PersonaChat은 각 대화 참여자가 특정한 성격을 가지고 있는 상황에서 대화하는 데이터를 포함하고 있는 데이터셋으로, 다양한 개인적 특성과 배경을 반영한 대화 예시가 제공됨.

BSBT (Blended Skill Talk)

  • BSBT는 다양한 대화 스킬을 혼합하여 대화하는 데이터를 포함하고 있으며, 사용자와의 자연스러운 상호작용을 위한 훈련에 활용됨.

6.2 Persuasive Dialogue

  • 정의: Persuasive Dialogue는 상대방을 설득하기 위한 목적의 대화로, 다양한 논리와 감정을 통해 상대방의 의견이나 행동을 변화시키려는 시도를 포함함.

대표적인 데이터셋

Persuasion for Good

  • Persuasion for Good는 긍정적인 메시지를 통해 상대방을 설득하는 대화 예시를 포함한 데이터셋으로, 사회적 이슈와 관련된 설득 기술을 연구하는 데 사용됨.

6.3 Dialogue Summarization

  • 정의: Dialogue Summarization은 대화 데이터를 요약하는 작업으로, 대화의 주요 내용을 간결하게 정리하는 것을 목표로 함. 일반 문서 요약과는 다른 대화의 맥락을 반영해야 함.

대표적인 데이터셋

SAMSum

  • SAMSum은 대화 데이터를 요약하는 작업을 위한 데이터셋으로, 여러 대화의 예시와 그 요약을 포함하고 있음. 이 데이터셋은 대화 요약 모델의 훈련 및 평가에 활용됨.

6.4 Knowledge-grounded Dialogue

  • 정의: Knowledge-grounded Dialogue는 사전 훈련된 모델 외에 외부 지식을 활용하여 대화하는 기술로, 대화의 내용이 더욱 풍부하고 사실적이도록 돕는 역할을 함.

대표적인 데이터셋

Wizard Of Wikipedia

  • Wizard Of Wikipedia는 위키피디아의 지식을 활용하여 대화를 생성하는 데이터셋으로, 다양한 주제에 대한 정보와 맥락을 제공함.

Wizard Of Internet

  • Wizard Of Internet는 인터넷에서 수집된 정보를 기반으로 대화를 생성하는 데이터셋으로, 실시간으로 변화하는 지식에 대한 반영이 가능함.

6.5 Dialogue for Characters

  • 정의: Dialogue for Characters는 각 대화 세션에 대해 장면, 캐릭터 속성 및 관계와 같은 풍부한 컨텍스트 정보를 제공하여 스토리 내 캐릭터에 대한 대화 에이전트를 생성하는 것을 목표로 함. 이는 스토리 내 세계관이나 배경 정보를 반영한 대화를 생성하는 데 필요함.

대표적인 데이터셋

Harry Potter Dialogue (HPD)

  • Harry Potter Dialogue는 해리 포터 세계관 내의 캐릭터 간 대화를 포함한 데이터셋으로, 특정 캐릭터의 성격과 관계를 반영하여 대화를 생성하는 연구에 활용됨.

6.6 Empathetic Dialogue

  • 정의: Empathetic Dialogue는 상대방의 감정을 고려하고 이를 공감하는 대답을 생성하는 과정을 의미함. 이는 대화의 질을 높이고, 사용자와의 관계를 강화하는 데 중요한 요소로 작용함.

대표적인 데이터셋

EmpatheticDialogues (ED)

  • EmpatheticDialogues는 상대방의 감정을 이해하고 공감하는 대화 예시를 포함한 데이터셋으로, 공감 능력을 향상시키기 위한 모델 훈련에 활용됨.

DailyDialog

  • DailyDialog는 일상적인 대화를 포함하며, 다양한 감정 상태를 반영한 대화 예시를 제공하는 데이터셋으로, 감정 인식을 포함한 대화 모델 연구에 사용됨.

7. 기타 특이한 Task 및 데이터셋

7.1 ImageNet-X

  • ImageNet-X는 기존의 ImageNet 데이터셋을 확장하여 다양한 변형 및 왜곡을 포함한 이미지들을 제공하는 데이터셋으로, 주로 이미지 분류 및 객체 인식 모델의 견고성을 평가하기 위해 사용됨. 이 데이터셋은 이미지의 변형, 색상 변경, 회전 등의 다양한 조건에서 모델의 성능을 검증하는 데 중요한 역할을 함.

7.2 Question Generation

데이터셋

  • Question Generation for Question Answering 데이터셋은 주어진 텍스트에서 질문을 자동으로 생성하는 과정을 포함하고 있음. 이 데이터셋은 특정 문서나 정보에서 질문을 생성하는 모델의 성능을 평가하는 데 활용됨. 일반적으로, 주어진 텍스트에서 중요한 정보나 개념을 기반으로 다양한 유형의 질문을 생성하는 것이 목표임.

7.3 Document-level Relation Extraction

  • 정의: 문서 전체에서 개체(entity)에 대한 속성과 관계를 예측하는 작업을 의미함. 이 작업은 개체 간의 관계를 문서의 맥락을 고려하여 이해하고 예측하는 데 중점을 둠.
  • 예시: 예를 들어 Barack Obama was born in Honolulu, Hawaii라는 문장이 주어졌을 때, Relation Extraction은 born In City의 관계를 예측하는 것을 목표로 함. 이 과정은 개체 간의 관계를 명확히 정의하고, 문서의 전체 맥락을 고려하여 보다 정확한 결과를 도출하는 데 중요한 역할을 함.
  • 지식 그래프 구축: Document-level Relation Extraction은 지식 그래프 구축에 매우 핵심적이며, 다양한 도메인에서 정보를 연결하고 체계화하는 데 필수적인 작업임.

대표적인 데이터셋

DocRED

  • DocRED는 문서 내에서 개체 간의 관계를 추출하기 위해 구축된 데이터셋으로, 약 500개의 문서와 50,000개 이상의 관계 쌍을 포함하고 있음. 이 데이터셋은 관계 추출 모델의 학습 및 평가를 위해 사용되며, 문서 수준에서의 관계 추출에 대한 연구에 기여하고 있음.

8. 한국어 관련 특이한 Task와 Data

8.1 고전어 데이터셋

Ancient Korean Neural Machine Translation

  • 고전어 데이터셋은 고전 한국어를 현대 한국어로 번역하기 위한 신경망 기계 번역(NMT) 데이터셋으로, 고전 문헌의 언어적 특징과 구조를 이해하고 번역하는 데 중점을 두고 있음.

조선왕조실록/일성록 기반 한자 벤치마크 데이터 셋

  • 이 데이터셋은 조선왕조실록과 일성록에서 수집된 한자 문헌을 기반으로 하여, 고전 한국어의 한자 표현을 현대 한국어로 변환하는 작업에 활용됨. 이 과정은 역사적 문서의 접근성을 높이고, 고전어 학습에 기여하는 것을 목표로 함.

미번역된 한자 고문헌을 번역한 데이터

  • 미번역된 한자 고문헌을 현대 한국어로 번역하여 구축된 데이터셋으로, 고전 문헌의 의미를 현대 언어로 해석하는 데 필요한 자료를 제공함. 이를 통해 고전어 연구와 번역 기술 발전에 기여함.

8.2 케어콜 데이터셋

  • 케어콜 데이터셋은 독거노인을 대상으로 한 일상 심리케어 데이터셋으로, 네이버에서 제공함. 이 데이터셋은 노인의 심리적 안정과 복지를 위한 다양한 대화 및 상호작용 데이터를 포함하고 있으며, 노인 돌봄 서비스와 관련된 연구에 활용될 수 있음.

8.3 혐오 발언 탐지 데이터셋

BEEP! Korean Corpus of Online News Comments for Toxic Speech Detection

  • 이 데이터셋은 온라인 뉴스 댓글에서 혐오 발언을 탐지하기 위한 한국어 코퍼스임. 다양한 댓글을 수집하여 혐오 발언과 비혐오 발언으로 레이블링하여, 모델의 학습 및 평가에 사용됨.

APEACH

  • APEACH는 온라인 상에서의 혐오 발언 탐지를 위한 데이터셋으로, 사용자 생성 콘텐츠에서 혐오 표현을 분석하고 탐지하는 데 초점을 맞추고 있음. 이 데이터셋은 사회적 문제 해결을 위한 연구에 기여하고 있음.

KOLD

  • KOLD는 한국어 온라인 콘텐츠에서의 혐오 발언을 탐지하기 위해 수집된 데이터셋으로, 다양한 사회적 맥락을 포함하여 혐오 발언의 특징을 분석하는 데 사용됨.

Korean Unsmile Dataset

  • 이 데이터셋은 온라인에서의 부정적 감정을 표현하는 댓글을 포함하고 있으며, 혐오 발언 탐지 및 감정 분석 연구에 활용됨.

8.4 쓰기 평가 데이터셋

  • 쓰기 평가 데이터셋은 딥러닝 기반 언어모델을 이용하여 한국어 학습자의 작문을 평가하는 데이터셋으로, 작성된 글을 자동으로 점수 구간으로 분류함. 이 데이터셋은 KoBERT와 KoGPT2를 중심으로 구성되어 있으며, 한국어 교육 및 평가의 효율성을 높이는 데 기여하고 있음.

8.5 문법 교정 데이터셋

  • 문법 교정 데이터셋은 한국어 문법 오류 교정을 표준화하기 위한 데이터셋으로, 한국어 학습자의 작문에서 발생할 수 있는 다양한 문법 오류를 식별하고 수정하는 데 사용됨.

K-NCT

  • K-NCT는 한국어 문법 교정을 위한 데이터셋으로, 학습된 모델이 문법 오류를 자동으로 감지하고 수정할 수 있도록 돕는 자료를 제공함. 이 데이터셋은 한국어 교육 및 연구에 필수적인 역할을 함.
profile
헤매는 만큼 자기 땅이다.

0개의 댓글