Subword Tokenization
주어진 말뭉치를 서브워드 단위로 나누는 작업
OOV (Out of Vocabulary) 문제 해소 가능
한국어에선 형태소 기반 서브워드 토큰화가 유리함
BPE
가장 빈도수가 높은 유니그램 쌍을 하나의 유니그램으로 통합
바텀 업 방식
Data Augmentation
Rule-based, Example Interpolation, Model-based techniques
Rule-based
EDA (Easy Data Augmentation)
UDA (Unsupervised Data Augmentation)
Example Interpolation
Mixup을 적용하여 둘 이상의 실제 예시로부터 입력값과 레이블을 보간
Mixed Sample Data Augmentation (MSDA)
Model-based
Seq2seq이나 언어 모델 사용
Back-Translation (BT)
대규모 생성 모델을 미세조정하여 문장을 바꿔 쓰는 기법
Data Filtering
데이터 제거를 통해 실제 데이터 양이 줄어 듦
Data Cleaning은 데이터 전처리 개념 (e.g., 불용어 처리, Stemming, Lemmatization)
병렬 말뭉치 (Parallel Corpus)
두 개 언어 이상의 번역된 문서를 모은 말뭉치
e.g., 위키백과, OPUS, AI Hub
병렬 말뭉치 필터링
언어 감지 필터
수용 가능성 필터
도메인 필터
Filtering vs Noising
Synthetic Data (합성 데이터)
크롤링, 크라우드소싱 등으로 수집한 데이터가 아닌 통계적, 전산학적 기법으로 생성
GPT-3와 같은 LLM이 annotation을 수행
Training Strategies
커리큘럼 학습
Inter-Annotator Agreement (IAA)
2명 이상의 어노테이터가 생성한 레이블이 얼마나 일관성 있는지에 관한 지표
데이터 품질과 관련이 있음
주요 Metric
Cohen’s Kappa
Fleiss’ Kappa
Krippendorff’s Alpha
Data Cascade
AI/ML 분야에서 데이터 품질 중요성을 과소평가
데이터 문제로 발생하는 하위 task에서의 복합적인 부정적 이슈
Good Data
라이프 사이클
체크리스트
전처리, 정제, 라벨링 단계가 있는가?
Raw data를 별도로 저장했는가?
전처리, 정제, 라벨링 단계에서 사용한 SW가 있다면 공개했는가?
Meta data가 얼마나 informative 한가?
Versioning 체계가 잘 이루어졌는가?
데이터 저장 폴더 구조가 직관적이고 clean 한가?
⇒ 모델의 출력 구조를 고려하는 것이 아닌, data의 내재적인 특성을 고려
Model-based Data-Centric AI
※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※