
이 문서는 Data-Centric NLP와 관련된 최근 연구 동향을 체계적으로 설명합니다. 데이터 증강, 필터링, 합성 데이터 생성, 데이터 품질 측정 등 다양한 주제를 다루며, 각각의 연구 방향과 방법론을 설명합니다.

모델을 수정하지 않고 데이터 중심 접근 방식으로 NLP 모델의 성능을 향상시키는 다양한 방법들이 존재합니다.

규칙 기반 NLP는 언어 처리 작업을 위해 전문가가 직접 정의한 규칙을 이용해 시스템을 구성하는 방식입니다.

혐오 발언(Hate Speech)은 인종, 성별, 성적 지향, 종교 등 개인의 특성을 바탕으로 특정 집단이나 개인을 비하하거나 공격하는 언어를 의미합니다.

국내 NLP 데이터 구축 프로젝트는 크게 국가 기관 주도, 기업 주도, 개인 및 학계 주도로 나뉩니다. 각 주체가 기여한 주요 프로젝트들을 상세히 살펴보겠습니다.

DMOps는 데이터 관리 작업과 절차(Data Management Operation and Recipes)를 의미합니다. AI 모델의 성능을 높이기 위해 데이터셋의 품질을 유지하고 관리하는 일련의 단계로 구성됩니다.

AI 시스템(서비스)은 데이터를 처리하는 코드(모델/알고리즘)와 학습을 위한 정보(데이터)가 함께 작용해 결과를 도출하는 구조로 이루어집니다.

31. Megatron-Turing NLG (2021) 논문: 비공개 (마이크로소프트와 NVIDIA의 협업) 요약: Megatron-Turing NLG는 5300억 개의 매개변수를 가진 초대형 언어 모델로, 매우 큰 모델을 사용해 자연어 생성 태스크에서 최

1. Transformer (2017) 논문: "Attention is All You Need" 요약: Transformer 모델은 기존 RNN과 CNN을 대체하며 등장한 모델로, 주목할 만한 점은 모든 정보를 다루는 데 있어 'Self-Attention'

BERT는 NLP에서 광범위하게 사용되는 사전 훈련된 모델로, 주로 텍스트 분류, 문장 유사도, 문장 생성 등 다양한 작업에 적용됩니다.

Git은 소프트웨어 버전 관리 시스템(VCS)이다. 소프트웨어 개발에서 여러 개발자가 동시에 협업할 때 코드 수정 내역을 서로 공유하고 관리함으로써 효율적인 개발을 도와준다.

브랜치는 독립된 개발 환경을 제공하는 기능이다. 브랜치는 여러 명이 동시에 개발할 때 각각의 작업을 분리하여 진행하거나, 새로운 기능을 테스트할 때 유용하게 사용할 수 있다.

Hugging Face의 Transformers 라이브러리는 자연어 처리(NLP) 분야에서 혁신적인 변화를 불러일으킨 오픈 소스 라이브러리이다.

최근에는 Generative-based 접근 방식이 점점 더 큰 주목을 받고 있다. 이러한 접근 방식은 질문에 대해 텍스트를 "생성"하는 모델을 활용해 보다 유연한 답변을 제공한다.

Extraction-based Machine Reading Comprehension (MRC)은 자연어 처리에서 주어진 텍스트에서 질문에 대한 답을 직접적으로 추출하는 접근법이다.

Re-rank: 재정렬 이 글은 Sparse Embedding과 Dense Embedding을 사용한 Reranking에 대해 설명한다.

Dense Embedding은 데이터의 의미를 고차원 공간에 압축해 표현하는 방법으로, 유사도 측정에 있어 Dense Embedding은 매우 중요한 역할을 한다.

Passage Embedding은 텍스트의 일부분을 고차원 공간의 벡터로 표현하는 방법으로, 의미적으로 유사한 패시지가 유사한 벡터 표현을 갖도록 한다.

KorQuAD(Korean Question Answering Dataset)는 한국어 자연어 처리(NLP) 연구에 중요한 역할을 하는 질문-응답 데이터셋이다.