Boost(9)

City_Duck·2022년 11월 15일

AI RE 부스트캠프

부스트캠프

목록 보기

10/15

VSCode 단축키
- 같은 코드, 같은 단어, 반복되는 코드 한번에 선택하는 단축키
  - ⌘ + D
- 같은 변수명/함수명 모두 선택해서 한번에 바꾸는 단축키
  - F2
- 주석처리, 주석처리 해제하는 단축키
  - ⌘ + /
- 코드 한 줄을 위/아래로 이동하는 단축키
  - ⌥ + ↑ 또는 ↓
- 코드 한 줄을 위/아래로 복사하는 단축키
  - ⌥ + ⇧ + ↑ 또는 ↓

Relation Extraction
- 관계 추출(Relation Extraction)은 문장의 단어(Entity)에 대한 속성과 관계를 예측하는 문제입니다.
- 역할 : Model Team

협업 방식
- Notion
  - Kanban Board
- Git
  - Git Flow 방식의 branch strategy
  - pre-commit
    - black
    - isort
    - autoflake
    - flake8
  - GitHub Action
    - pre-commit
    - Commit Convention
EDA
- Entity의 위치가 embedding size인 512를 넘어가는 데이터 Drop
- 한자가 포함되어 있는 데이터 확인
  - 한자가 포함되어 있는 데이터가 train data의 10%이며 한자가 포함된 entity는 약 1%
  - < unk > 토큰으로 처리되는 한자들이 많았기에 두 가지 옵션을 사용
  1. substitution : 한자를 한국어로 대체
    - 대부분의 한자가 고유명사이기에 효과가 없음
  2. 한자의 번역을 bracket 사이에 넣어줌
    - 한자를 한국어로 번역 시 두 가지 음을 가지는 한자에 취약
- Baseline의 Preprocessing 코드가 Entity를 모두 들고오지 않음
  - before : entity 'word' : 희극 배우
  - after : entity 'word' : 희극 배우, MC, 배우, 가수
  - Micro F1 score 소폭 상승, AUPRC 감소
  - 이에 해당되는 데이터가 적었기에 변경된 데이터 Relation 추론을 포기했다고 판단된다.
  - 이처럼 추가되는 Entity를 통해 증강 시도
    - 'Relation이 같다' 가정 하에 조합 방식으로 추가시 원본 데이터와 3:1 비율로 증강 가능
    - Micro F1 score 상승
- An Improved Baseline for Sentence-level Relation Extraction 논문 적용
  - 아쉽게도 좋은 성적을 내지 못했다.

Model
- PyTorch Lightning 이식 : Baseline code의 모듈 화 및 실험 편의를 위해
- Trainer Config
  - Optimizer
    - AdamW
    - Weight decay : 0.01
      - OverFitting 및 Generation Error를 줄이기 위해 도입
    - LR Scheduler
      - Constant with warm up : 정해진 Step까지 LR이 선형적으로 증가하며(warm up) 이후 고정
      - Cosine with warm up : Warm Up 이후 Cosine 함수를 통해 LR Scaling 수행
        
        성능이 향상되었다
        
        Early OverFitting 방지 및 학습 진행과 함께 LR 감소가 이뤄져 Loss가 튀는 것을 방지
    - LR finder : Cyclical Learning Rates 방식으로 초기 LR을 찾아줍니다.
      - 성능 소폭 상승
  - Loss Function
    - CrossEntropy : 일반적으로 성능이 가장 좋았다.
    - Focal Loss : 불균형한 데이터셋이기에 hard example에 가중을 주는 해당 function
      - 성능이 좋지 않았다.
      - hard example의 수가 너무 적어서 성능이 좋지 않았다고 판단했다.
    - Label Smoothing Loss : miss labeled된 데이터를 발견하여 도입하였으며 label을 smooth하게 부여합니다. 이를 통해 모델이 overconfident해지는 경향을 줄일 수 있습니다.
      - 성능이 좋았습니다.
  - PL Function 추가
    - seed_everything & deterministic을 사용하여 재현 보장
    - Mixed precision : GPU resource를 효율적으로 사용하며 연산속도 증가
    - Batch Size Finder : 모델이 사용할 수 있는 largest batch size를 찾는 기능
  - 모델 개선
    - Stratified KFold : 불균형한 데이터셋이기에 모델 일반화 성능 측정 및 앙상블 수행
    - R-BERT : 분류시 CLS 토큰 뿐만 아닌 Entity를 함께 Embedding하는 아이디어를 ROBERTa-Large에 적용하였습니다.
      - 성능이 좋아지지 않았습니다.
      - BERT와 다르게 이미 충분히 성적이 좋아진 ROBERTa-Large이기에 성능 향상이 보이지 않았다고 판단했습니다.

DATA
- Data pre-processing : 한자 대부분이 UNK 토큰이기에 special token으로 처리하였지만 성능 하락
- Data Augmentation
  - Back Translation : 1.5:1 비율로 추가하였지만 성능 하락
    - 전체 Sentence가 아닌 Entity 역번역을 통한 유의어 교체 시도 예정
  - SR(동의어 교체)를 시도하였으나 지명, 이름, 고유명사 등이 많아서 제외
  - Generation : koGPT3에 entity를 주어 새로운 문장을 만들었지만 성능 하락
  - Masked Language : 문장에 entity를 [MASK]하여 새로운 단어를 찾는 시도
    - 원본 데이터보다 향상되지 않았다.

후기
- '대회 점수에 집중하지 않고 부캠에서 배웠던 것들을 적용시켜보자' 라는 팀 모토로 접근했기에 성적이 좋게 나오진 않았지만 Reference 없이 Pytorch Lightning을 사용한 경험은 큰 자산으로 남을 것 같다.
- Prediction 결과를 분석하여 Model 개선 시도를 추가할 예정이다.
- 최신 기법을 적용하기 전 데이터와 Task를 충분히 분석해야 효율적으로 적용할 수 있다는 것을 배웠다.

City_Duck

AI 새싹

이전 포스트

Boost(8)

다음 포스트

Boost(9)

부스트캠프

VSCode 단축키

Relation Extraction

협업 방식

EDA

Model

DATA

후기

Boost(8)

Boost(10)

0개의 댓글