AI 시스템(서비스)은 데이터를 처리하는 코드(모델/알고리즘)와 학습을 위한 정보(데이터)가 함께 작용해 결과를 도출하는 구조로 이루어집니다.
DMOps는 데이터 관리 작업과 절차(Data Management Operation and Recipes)를 의미합니다. AI 모델의 성능을 높이기 위해 데이터셋의 품질을 유지하고 관리하는 일련의 단계로 구성됩니다.
규칙 기반 NLP는 언어 처리 작업을 위해 전문가가 직접 정의한 규칙을 이용해 시스템을 구성하는 방식입니다.
모델을 수정하지 않고 데이터 중심 접근 방식으로 NLP 모델의 성능을 향상시키는 다양한 방법들이 존재합니다.
이 문서는 Data-Centric NLP와 관련된 최근 연구 동향을 체계적으로 설명합니다. 데이터 증강, 필터링, 합성 데이터 생성, 데이터 품질 측정 등 다양한 주제를 다루며, 각각의 연구 방향과 방법론을 설명합니다.
Dataset(데이터셋)과 Benchmark(벤치마크)는 서로 밀접하게 연결된 개념이다. 특히 머신러닝, 딥러닝, 그리고 정보 검색 분야에서 성능 평가와 모델 비교를 위한 핵심 요소로 함께 사용된다.
국내 NLP 데이터 구축 프로젝트는 크게 국가 기관 주도, 기업 주도, 개인 및 학계 주도로 나뉩니다. 각 주체가 기여한 주요 프로젝트들을 상세히 살펴보겠습니다.
혐오 발언(Hate Speech)은 인종, 성별, 성적 지향, 종교 등 개인의 특성을 바탕으로 특정 집단이나 개인을 비하하거나 공격하는 언어를 의미합니다.
KorQuAD(Korean Question Answering Dataset)는 한국어 자연어 처리(NLP) 연구에 중요한 역할을 하는 질문-응답 데이터셋이다.