Data-Centric(5): NLP 분야의 특이한 Data

SeongGyun Hong·2024년 10월 29일

Data-centric data naverboostcamp

NaverBoostCamp

목록 보기

17/64

1. Hate Speech Detection

대표적인 데이터 셋:

HateXplain

3-class classification
hate/offensive/noraml
target community
게시물에서 혐오 발언/공격적 발언의 피해자가 된 커뮤니티
rationale
post의 레이블링(hate, offensive, normal)을 결정하는 post의 일부분

Counter Speech Generation

정의 및 필요성
디텍팅을 넘어서서 왜 잘못 됐는지 설명까지 해주는 Task

대표적인 데이터셋 : ProsocialDialog

2. Sarcasm Detection

텍스트 또는 음성 데이터에서 풍자적 의미나 반어법적 말을 감지하고 인식하는 것을 의미함.

대표적인 데이터셋:

iSarcasm
iSarcasm은 온라인 소셜 미디어 플랫폼에서 수집된 데이터로, 풍자적 발언과 비풍자적 발언을 포함하고 있음. 이 데이터셋은 약 30,000개의 댓글로 구성되어 있으며, 각 댓글은 풍자적 여부에 따라 레이블링 되어 있음. iSarcasm 데이터셋은 다양한 자연어 처리 모델의 풍자 인식 성능을 평가하고 향상시키기 위한 연구에 널리 사용되고 있음.

3. Fake News Detection

대표적인 데이터셋

LIAR

LIAR는 정치적 발언의 진위 여부를 판별하기 위해 구축된 데이터셋으로, 12,836개의 발언이 포함되어 있음. 각 발언은 "True", "Mostly True", "Half True", "Mostly False", "False", "Pants on Fire"의 여섯 가지 레이블로 분류되어 있음. 데이터셋은 다양한 출처에서 수집된 데이터를 기반으로 하여, 거짓 정보의 특징과 패턴을 학습할 수 있도록 돕는 역할을 함.

4. Fact Checking

대표적인 데이터셋

FEVER

FEVER는 사실 확인을 위한 데이터셋으로, 185,445개의 주장과 이를 뒷받침하는 2.7백만 개의 위키피디아 문서에서 발췌한 정보를 포함하고 있음. 각 주장은 "True", "False", "Not Enough Info"의 세 가지 레이블로 분류되어 있으며, 주장의 진위를 판별하기 위해 필요한 증거를 추출하고 링크할 수 있도록 설계됨. 데이터셋은 다양한 사실 확인 작업에서 모델의 성능을 평가하는 데 유용하게 사용됨.

5. 기계번역 관련 Special Task

5.1 Quality Estimation

정의: Quality Estimation (QE)는 기계 번역의 품질을 예측하는 과정을 의미함. 즉, 번역된 문장이 얼마나 자연스럽고 정확한지를 측정하는 기술로, 기계 번역의 성능을 평가하고 개선하는 데 중요한 역할을 함.
판단 단위:
- Sentence-level QE: 전체 문장을 단위로 하여 번역 품질을 평가하는 방법. 문장이 자연스럽고 의미가 전달되는지를 중심으로 평가함.
- Word-level QE: 개별 단어를 기준으로 번역 품질을 판단하는 방법. 특정 단어의 번역이 올바른지 여부를 평가함.
- MQM word-level QE: Multidimensional Quality Metrics (MQM) 기반으로 단어 수준에서 번역 품질을 평가하는 방법으로, 여러 품질 요소를 종합적으로 고려하여 점수를 매김.

대표적인 데이터셋

QUAK

QUAK는 기계 번역 품질을 예측하기 위한 데이터셋으로, 다양한 언어 쌍의 번역 결과를 포함하고 있음. 이 데이터셋은 품질 평가 모델의 학습 및 평가에 사용되며, 실제 번역 품질을 정량화하는 데 도움을 줌.

5.2 Automatic Post Editing

정의: Automatic Post Editing (APE)는 번역된 텍스트에 존재하는 오류를 수정하는 과정을 의미함. 기계 번역에서 발생할 수 있는 문법적, 의미적 오류를 자동으로 수정하여 최종 결과물의 품질을 향상시키는 방법임.

대표적인 데이터셋

SubEdits

SubEdits는 기계 번역의 오류를 자동으로 수정하기 위해 구축된 데이터셋으로, 오류가 포함된 번역과 그에 대한 수정된 버전을 포함하고 있음. 이 데이터셋은 APE 모델의 학습 및 평가에 사용됨.

5.3 채팅 번역

채팅 번역은 게임이나 소셜 미디어에서의 비공식적이고 구어체의 대화 내용을 번역하는 작업을 의미함. 이 과정에서는 어체와 표현의 자연스러움을 고려해야 하며, 원활한 커뮤니케이션을 위해 문맥을 잘 반영해야 함. 채팅 번역은 특히 빠른 대화가 이루어지는 환경에서 실시간으로 진행되는 경우가 많아, 효율성과 정확성을 동시에 고려해야 함.

6. Dialogue 관련 Task와 데이터셋

6.1 Persona-grounded Dialogue

정의: Persona-grounded Dialogue는 인간과 모델 간의 대화에서 대화자의 특성이나 성격을 반영하여 대화를 진행하는 것을 의미함. 이는 대화의 자연스러움을 높이고, 사용자 맞춤형 상호작용을 가능하게 함.

대표적인 데이터셋

PersonaChat

PersonaChat은 각 대화 참여자가 특정한 성격을 가지고 있는 상황에서 대화하는 데이터를 포함하고 있는 데이터셋으로, 다양한 개인적 특성과 배경을 반영한 대화 예시가 제공됨.

BSBT (Blended Skill Talk)

BSBT는 다양한 대화 스킬을 혼합하여 대화하는 데이터를 포함하고 있으며, 사용자와의 자연스러운 상호작용을 위한 훈련에 활용됨.

6.2 Persuasive Dialogue

정의: Persuasive Dialogue는 상대방을 설득하기 위한 목적의 대화로, 다양한 논리와 감정을 통해 상대방의 의견이나 행동을 변화시키려는 시도를 포함함.

대표적인 데이터셋

Persuasion for Good

Persuasion for Good는 긍정적인 메시지를 통해 상대방을 설득하는 대화 예시를 포함한 데이터셋으로, 사회적 이슈와 관련된 설득 기술을 연구하는 데 사용됨.

6.3 Dialogue Summarization

정의: Dialogue Summarization은 대화 데이터를 요약하는 작업으로, 대화의 주요 내용을 간결하게 정리하는 것을 목표로 함. 일반 문서 요약과는 다른 대화의 맥락을 반영해야 함.

대표적인 데이터셋

SAMSum

SAMSum은 대화 데이터를 요약하는 작업을 위한 데이터셋으로, 여러 대화의 예시와 그 요약을 포함하고 있음. 이 데이터셋은 대화 요약 모델의 훈련 및 평가에 활용됨.

6.4 Knowledge-grounded Dialogue

정의: Knowledge-grounded Dialogue는 사전 훈련된 모델 외에 외부 지식을 활용하여 대화하는 기술로, 대화의 내용이 더욱 풍부하고 사실적이도록 돕는 역할을 함.

대표적인 데이터셋

Wizard Of Wikipedia

Wizard Of Wikipedia는 위키피디아의 지식을 활용하여 대화를 생성하는 데이터셋으로, 다양한 주제에 대한 정보와 맥락을 제공함.

Wizard Of Internet

Wizard Of Internet는 인터넷에서 수집된 정보를 기반으로 대화를 생성하는 데이터셋으로, 실시간으로 변화하는 지식에 대한 반영이 가능함.

6.5 Dialogue for Characters

정의: Dialogue for Characters는 각 대화 세션에 대해 장면, 캐릭터 속성 및 관계와 같은 풍부한 컨텍스트 정보를 제공하여 스토리 내 캐릭터에 대한 대화 에이전트를 생성하는 것을 목표로 함. 이는 스토리 내 세계관이나 배경 정보를 반영한 대화를 생성하는 데 필요함.

대표적인 데이터셋

Harry Potter Dialogue (HPD)

Harry Potter Dialogue는 해리 포터 세계관 내의 캐릭터 간 대화를 포함한 데이터셋으로, 특정 캐릭터의 성격과 관계를 반영하여 대화를 생성하는 연구에 활용됨.

6.6 Empathetic Dialogue

정의: Empathetic Dialogue는 상대방의 감정을 고려하고 이를 공감하는 대답을 생성하는 과정을 의미함. 이는 대화의 질을 높이고, 사용자와의 관계를 강화하는 데 중요한 요소로 작용함.

대표적인 데이터셋

EmpatheticDialogues (ED)

EmpatheticDialogues는 상대방의 감정을 이해하고 공감하는 대화 예시를 포함한 데이터셋으로, 공감 능력을 향상시키기 위한 모델 훈련에 활용됨.

DailyDialog

DailyDialog는 일상적인 대화를 포함하며, 다양한 감정 상태를 반영한 대화 예시를 제공하는 데이터셋으로, 감정 인식을 포함한 대화 모델 연구에 사용됨.

7. 기타 특이한 Task 및 데이터셋

7.1 ImageNet-X

ImageNet-X는 기존의 ImageNet 데이터셋을 확장하여 다양한 변형 및 왜곡을 포함한 이미지들을 제공하는 데이터셋으로, 주로 이미지 분류 및 객체 인식 모델의 견고성을 평가하기 위해 사용됨. 이 데이터셋은 이미지의 변형, 색상 변경, 회전 등의 다양한 조건에서 모델의 성능을 검증하는 데 중요한 역할을 함.

7.2 Question Generation

데이터셋

Question Generation for Question Answering 데이터셋은 주어진 텍스트에서 질문을 자동으로 생성하는 과정을 포함하고 있음. 이 데이터셋은 특정 문서나 정보에서 질문을 생성하는 모델의 성능을 평가하는 데 활용됨. 일반적으로, 주어진 텍스트에서 중요한 정보나 개념을 기반으로 다양한 유형의 질문을 생성하는 것이 목표임.

7.3 Document-level Relation Extraction

정의: 문서 전체에서 개체(entity)에 대한 속성과 관계를 예측하는 작업을 의미함. 이 작업은 개체 간의 관계를 문서의 맥락을 고려하여 이해하고 예측하는 데 중점을 둠.
예시: 예를 들어 Barack Obama was born in Honolulu, Hawaii라는 문장이 주어졌을 때, Relation Extraction은 born In City의 관계를 예측하는 것을 목표로 함. 이 과정은 개체 간의 관계를 명확히 정의하고, 문서의 전체 맥락을 고려하여 보다 정확한 결과를 도출하는 데 중요한 역할을 함.
지식 그래프 구축: Document-level Relation Extraction은 지식 그래프 구축에 매우 핵심적이며, 다양한 도메인에서 정보를 연결하고 체계화하는 데 필수적인 작업임.

대표적인 데이터셋

DocRED

DocRED는 문서 내에서 개체 간의 관계를 추출하기 위해 구축된 데이터셋으로, 약 500개의 문서와 50,000개 이상의 관계 쌍을 포함하고 있음. 이 데이터셋은 관계 추출 모델의 학습 및 평가를 위해 사용되며, 문서 수준에서의 관계 추출에 대한 연구에 기여하고 있음.

8. 한국어 관련 특이한 Task와 Data

8.1 고전어 데이터셋

Ancient Korean Neural Machine Translation

고전어 데이터셋은 고전 한국어를 현대 한국어로 번역하기 위한 신경망 기계 번역(NMT) 데이터셋으로, 고전 문헌의 언어적 특징과 구조를 이해하고 번역하는 데 중점을 두고 있음.

조선왕조실록/일성록 기반 한자 벤치마크 데이터 셋

이 데이터셋은 조선왕조실록과 일성록에서 수집된 한자 문헌을 기반으로 하여, 고전 한국어의 한자 표현을 현대 한국어로 변환하는 작업에 활용됨. 이 과정은 역사적 문서의 접근성을 높이고, 고전어 학습에 기여하는 것을 목표로 함.

미번역된 한자 고문헌을 번역한 데이터

미번역된 한자 고문헌을 현대 한국어로 번역하여 구축된 데이터셋으로, 고전 문헌의 의미를 현대 언어로 해석하는 데 필요한 자료를 제공함. 이를 통해 고전어 연구와 번역 기술 발전에 기여함.

8.2 케어콜 데이터셋

케어콜 데이터셋은 독거노인을 대상으로 한 일상 심리케어 데이터셋으로, 네이버에서 제공함. 이 데이터셋은 노인의 심리적 안정과 복지를 위한 다양한 대화 및 상호작용 데이터를 포함하고 있으며, 노인 돌봄 서비스와 관련된 연구에 활용될 수 있음.

8.3 혐오 발언 탐지 데이터셋

BEEP! Korean Corpus of Online News Comments for Toxic Speech Detection

이 데이터셋은 온라인 뉴스 댓글에서 혐오 발언을 탐지하기 위한 한국어 코퍼스임. 다양한 댓글을 수집하여 혐오 발언과 비혐오 발언으로 레이블링하여, 모델의 학습 및 평가에 사용됨.

APEACH

APEACH는 온라인 상에서의 혐오 발언 탐지를 위한 데이터셋으로, 사용자 생성 콘텐츠에서 혐오 표현을 분석하고 탐지하는 데 초점을 맞추고 있음. 이 데이터셋은 사회적 문제 해결을 위한 연구에 기여하고 있음.

KOLD

KOLD는 한국어 온라인 콘텐츠에서의 혐오 발언을 탐지하기 위해 수집된 데이터셋으로, 다양한 사회적 맥락을 포함하여 혐오 발언의 특징을 분석하는 데 사용됨.

Korean Unsmile Dataset

이 데이터셋은 온라인에서의 부정적 감정을 표현하는 댓글을 포함하고 있으며, 혐오 발언 탐지 및 감정 분석 연구에 활용됨.

8.4 쓰기 평가 데이터셋

쓰기 평가 데이터셋은 딥러닝 기반 언어모델을 이용하여 한국어 학습자의 작문을 평가하는 데이터셋으로, 작성된 글을 자동으로 점수 구간으로 분류함. 이 데이터셋은 KoBERT와 KoGPT2를 중심으로 구성되어 있으며, 한국어 교육 및 평가의 효율성을 높이는 데 기여하고 있음.

8.5 문법 교정 데이터셋

문법 교정 데이터셋은 한국어 문법 오류 교정을 표준화하기 위한 데이터셋으로, 한국어 학습자의 작문에서 발생할 수 있는 다양한 문법 오류를 식별하고 수정하는 데 사용됨.

K-NCT

K-NCT는 한국어 문법 교정을 위한 데이터셋으로, 학습된 모델이 문법 오류를 자동으로 감지하고 수정할 수 있도록 돕는 자료를 제공함. 이 데이터셋은 한국어 교육 및 연구에 필수적인 역할을 함.

SeongGyun Hong

헤매는 만큼 자기 땅이다.

이전 포스트

Data-Centric(4): NLP 데이터 소개

다음 포스트

Data-Centric(5): NLP 분야의 특이한 Data

NaverBoostCamp

1. Hate Speech Detection

대표적인 데이터 셋:

2. Sarcasm Detection

대표적인 데이터셋:

3. Fake News Detection

대표적인 데이터셋

4. Fact Checking

대표적인 데이터셋

5. 기계번역 관련 Special Task

5.1 Quality Estimation

대표적인 데이터셋

5.2 Automatic Post Editing

대표적인 데이터셋

5.3 채팅 번역

6. Dialogue 관련 Task와 데이터셋

6.1 Persona-grounded Dialogue

대표적인 데이터셋

6.2 Persuasive Dialogue

대표적인 데이터셋

6.3 Dialogue Summarization

대표적인 데이터셋

6.4 Knowledge-grounded Dialogue

대표적인 데이터셋

6.5 Dialogue for Characters

대표적인 데이터셋

6.6 Empathetic Dialogue

대표적인 데이터셋

7. 기타 특이한 Task 및 데이터셋

7.1 ImageNet-X

7.2 Question Generation

7.3 Document-level Relation Extraction

대표적인 데이터셋

8. 한국어 관련 특이한 Task와 Data

8.1 고전어 데이터셋

8.2 케어콜 데이터셋

8.3 혐오 발언 탐지 데이터셋

8.4 쓰기 평가 데이터셋

8.5 문법 교정 데이터셋

Data-Centric(4): NLP 데이터 소개

Data-Centric(6): NLP History

0개의 댓글