Data-Centric NLP 응용 분야

홍찬우·2023년 7월 29일
0

Without Model Modification

Subword Tokenization

  • 주어진 말뭉치를 서브워드 단위로 나누는 작업

  • OOV (Out of Vocabulary) 문제 해소 가능

  • 한국어에선 형태소 기반 서브워드 토큰화가 유리함


BPE

  • 가장 빈도수가 높은 유니그램 쌍을 하나의 유니그램으로 통합

  • 바텀 업 방식


Data Augmentation

  • Rule-based, Example Interpolation, Model-based techniques

  • Rule-based

    • EDA (Easy Data Augmentation)

      • SR, RI, RS, RD
    • UDA (Unsupervised Data Augmentation)

  • Example Interpolation

    • Mixup을 적용하여 둘 이상의 실제 예시로부터 입력값과 레이블을 보간

    • Mixed Sample Data Augmentation (MSDA)

  • Model-based

    • Seq2seq이나 언어 모델 사용

    • Back-Translation (BT)

    • 대규모 생성 모델을 미세조정하여 문장을 바꿔 쓰는 기법


Data Filtering

  • 데이터 제거를 통해 실제 데이터 양이 줄어 듦

  • Data Cleaning은 데이터 전처리 개념 (e.g., 불용어 처리, Stemming, Lemmatization)

    • 양이 줄어 드는 것이 아님

  • 병렬 말뭉치 (Parallel Corpus)

    • 두 개 언어 이상의 번역된 문서를 모은 말뭉치

    • e.g., 위키백과, OPUS, AI Hub

      • 동일한 내용의 문서 내에서 문장 정렬을 통해 병렬 말뭉치가 구축되어 있음

  • 병렬 말뭉치 필터링

    • 언어 감지 필터

      • 문장쌍이 원하는 언어인지 확인
    • 수용 가능성 필터

      • 문장쌍의 내용이 수용 가능할 정도로 유사한지 확인
    • 도메인 필터

      • 원하는 주제 밖의 내용(out-of-domain)이 아닌지 확인
    • Filtering vs Noising

      • Noise를 제거하는 filtering 연구 vs Noise에 강건한 Model을 위한 연구

Synthetic Data (합성 데이터)

  • 크롤링, 크라우드소싱 등으로 수집한 데이터가 아닌 통계적, 전산학적 기법으로 생성

  • GPT-3와 같은 LLM이 annotation을 수행


Training Strategies

  • 커리큘럼 학습

    • 쉬운 내용부터 어려운 내용으로 단계적으로 모델 학습

Data Measurement

Inter-Annotator Agreement (IAA)

  • 2명 이상의 어노테이터가 생성한 레이블이 얼마나 일관성 있는지에 관한 지표

  • 데이터 품질과 관련이 있음

  • 주요 Metric

    • Cohen’s Kappa

      • 두 명의 작업자에서만 사용할 수 있다는 한계점
    • Fleiss’ Kappa

    • Krippendorff’s Alpha


HCI

Data Cascade

  • AI/ML 분야에서 데이터 품질 중요성을 과소평가

  • 데이터 문제로 발생하는 하위 task에서의 복합적인 부정적 이슈

    • Model deployment 단계에서 큰 문제로 야기될 수 있음

Good Data

  • 라이프 사이클

    • Pre-processing, Cleaning, Labeling
  • 체크리스트

    • 전처리, 정제, 라벨링 단계가 있는가?

    • Raw data를 별도로 저장했는가?

    • 전처리, 정제, 라벨링 단계에서 사용한 SW가 있다면 공개했는가?

    • Meta data가 얼마나 informative 한가?

    • Versioning 체계가 잘 이루어졌는가?

    • 데이터 저장 폴더 구조가 직관적이고 clean 한가?

      모델의 출력 구조를 고려하는 것이 아닌, data의 내재적인 특성을 고려


Model-based Data-Centric AI

  • Model을 통해 error를 발견하고, 사람을 통해 cleansing을 진행하는
    Human in the loop cycle이 중요






※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※

profile
AI-Kid

0개의 댓글