(1) 데이터 크롤링/전처리/증강이 관건, 확보한 데이터셋 기반으로 모델 training 실험 계획 수립하자
(2)
용어 Counterfactually-augmented data
(: 반사실적으로 보강된 데이터)
용어 Spurious Correlations
(: 허위 상관관계, 상관계수 값이 1에 가깝지만, 실제론 관계가 없는 경우)
용어 Casuality-based augmentation
(: 학습 시와 동일한 분포에서의 Generalization을 넘어, 변경된 (Casual한) distribution에서 기존의 knowledge를 어떻게 재사용하여 인간처럼 추론/이해하는 모델을 만들지의 문제, 딥러닝 2.0
레벨과 관련) - [Casual Learning과 관련된 연구] (https://brunch.co.kr/@advisor/23)
용어 Anchor
/ Anchoring
(NLP 분야에서 앵커링은 “Conditioning
” 기준과 유사하다..?)
Grid search
/ Random search
/ Bayesian Optimization
(: 적절한 하이퍼파라미터를 탐색)Data augmentation에서 주의해야 할 점은 semantically invariant transformation
(: 의미가 불변하는 변환, 즉, augmentation이 image/text class label
을 보존)여야한다는 점이다.
<텍스트 데이터에서의 augmentation 기법>
1) 사전적 의미가 비슷한 단어로 바꾸는 기법 - Thesaurus-based Substitution
2) Embedding을 통해 벡터 공간에서 거리가 가까운 단어로 바꾸는 기법 - Word Embedding-based Substitution
3) 특정 단어 위치에 Mask를 씌워 미리 학습된 모델의 예측값을 사용하는 기법 - BERT를 이용한 Masked Language Model
4) 문장에서 의미가 크지 않은 단어를 다른 단어로 대체하는 기법 - TF-IDF-based Replacement
5) 기계번역 모델을 증강에 활용하는 기법 - 번역 후 재번역하는 Back Translation
6) 워드 임베딩 피쳐/센텐스 임베딩 피쳐에 믹스업- Word/Sent Mixup
Data의 특성에 따라 augmentation 하는 방법이 많이 다르다..!