[크롤링/전처리/증강] 리서치 및 기법/용어 이해 (2022/03/08)

gromit·2022년 3월 8일
0

1. "감성 분류" 자료 읽어보기

(1) 데이터 크롤링/전처리/증강이 관건, 확보한 데이터셋 기반으로 모델 training 실험 계획 수립하자

(2)

  • 용어 Counterfactually-augmented data (: 반사실적으로 보강된 데이터)

  • 용어 Spurious Correlations (: 허위 상관관계, 상관계수 값이 1에 가깝지만, 실제론 관계가 없는 경우)

  • 용어 Casuality-based augmentation (: 학습 시와 동일한 분포에서의 Generalization을 넘어, 변경된 (Casual한) distribution에서 기존의 knowledge를 어떻게 재사용하여 인간처럼 추론/이해하는 모델을 만들지의 문제, 딥러닝 2.0 레벨과 관련) - [Casual Learning과 관련된 연구] (https://brunch.co.kr/@advisor/23)

  • 용어 Anchor / Anchoring (NLP 분야에서 앵커링은 “Conditioning” 기준과 유사하다..?)


➕)
  • [[자연어처리] 어떻게 텍스트 데이터를 늘릴 것인가? (Text Data Augmentation)] (https://fish-tank.tistory.com/95)
    • 2019년 EMNLP에서 발표된 "Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks" 라는 논문
    • 이를 한국어용으로 코드구현을 한 좋은 자료가 있어 아래 깃허브를 함께 올린다 ! 
      github.com/catSirup/KorEDA/blob/master/eda.pygithub.com/catSirup/KorEDA/tree/master
    • 이분께서는 RD, RS 두가지 방식을 먼저 추천하는 것 같다.

➕)
  • Grid search / Random search / Bayesian Optimization (: 적절한 하이퍼파라미터를 탐색)
    (1) [[Machine learning] 쉽게 설명하는 Grid search - 모델 성능을 최고로 만드는 hyper parameter를 찾아서] (200727) (https://huidea.tistory.com/32)
    (2) 3기법 비교 글 - [[ML] 베이지안 최적화 (Bayesian Optimization)](https://wooono.tistory.com/102)


2. The whys and hows of data augmentation (http://dmqm.korea.ac.kr/activity/seminar/307)

  • Data augmentation에서 주의해야 할 점은 semantically invariant transformation(: 의미가 불변하는 변환, 즉, augmentation이 image/text class label을 보존)여야한다는 점이다.

  • <텍스트 데이터에서의 augmentation 기법>
    1) 사전적 의미가 비슷한 단어로 바꾸는 기법 - Thesaurus-based Substitution
    2) Embedding을 통해 벡터 공간에서 거리가 가까운 단어로 바꾸는 기법 - Word Embedding-based Substitution
    3) 특정 단어 위치에 Mask를 씌워 미리 학습된 모델의 예측값을 사용하는 기법 - BERT를 이용한 Masked Language Model
    4) 문장에서 의미가 크지 않은 단어를 다른 단어로 대체하는 기법 - TF-IDF-based Replacement
    5) 기계번역 모델을 증강에 활용하는 기법 - 번역 후 재번역하는 Back Translation
    6) 워드 임베딩 피쳐/센텐스 임베딩 피쳐에 믹스업- Word/Sent Mixup

  • Data의 특성에 따라 augmentation 하는 방법이 많이 다르다..!

profile
AI, Big Data, Industrial Engineering

0개의 댓글