NLP P stage Day 4, 9/30 Thu

이호영·2021년 10월 3일
0

Boostcamp AI Tech 2기

목록 보기
31/32

실험

XLM-RoBERTa-base

첫 제출이어서 기대는 안했지만 점수가 낮아서 아쉬웠다.

XLM-RoBERTa-large

조금 더 복잡한 모델을 사용했지만 이 역시 성능이 그리 좋지는 않았다.

4강 한국어 BERT 언어 모델 학습

1.1 BERT 모델 학습

도메인 특화 task에서는 도메인 특화 학습 데이터만 사용하는 것이 성능이 더 좋다.

ex) 법률 데이터, 생리학 데이터, 금융 데이터, 댓글 데이터

Dataset

→ 모델에게 어떤 밥을 먹여줄 것인가

DataLoader

→ 모델에게 밥을 어떻게 먹여줄 것인가

Masking 작업을 진행한 뒤 BERT에 입력한다.

실습

  • 개인정보가 제거된 데이터를 사용해야한다.

BERT pre-training

  • wordPiece tokenizer를 사용
  • [MASK] token을 분리하는 현상이 일어나서 add_special_token에 [MASK] token을 추가
  • BertConfig (huggingface 공식 문서에 설명되어 있음)

hidden_layer: transformer layer 수

intermediate_size: feed-forward network의 dimension size

max_position_embedding: embedding size가 최대 몇 token까지 input으로 사용할 것인가

  • BertForPreTraining

Dataset을 구성 (실습 목표)

Document 단위로 dataset을 구성한다.

  • Tokenizer의 결과는 매번 출력해서 확인해줘야 한다.
profile
Speech Synthesis & Voice Cloning

0개의 댓글