[부스트캠프 AI-Tech] 15주차 Day 2

LKM·2022년 5월 6일

부스트캠프 AI-Tech P stage

목록 보기

24/45

Model
- BART
  - BERT + GPT (encoder + decoder)
  - 텍스트에 노이즈를 주고 원래 텍스트를 복구하는 문제를 푸는 것으로 pre-training
Post-processing
- Decoding
  - 디코더에서 이전 스텝에서 나온 출력이 다음 스텝의 입력으로 들어감
- Searching
  - Greedy Search
  - Exhaustive Search
  - Beam Search

Open-domain Question Answering
- 대규모의 문서 중에서 질문에 대한 답을 찾기
- Passage Retrieval과 MRC를 이어서 2-Stage로 만들 수 있음
Passage Embedding Space 터 공간
- Passage 간 유사도를 알고리즘으로 계산 가능
- Sparse Embedding
  - Bag-of-Words (n-gram으로 구성)
  - 벡터 차원 = term 개수
  - Term overlap을 정확하게 잡아 내야 할 때 유용
  - 의미가 비슷하지만 다른 단어인 경우 비교 불가
TF-IDF (Term Frequency - Inverse Document Frequency)
- Term Frequency: 문서 내 단어의 등장 빈도
- Inverse Document Frequency: 단어가 제공하는 정보의 양
  - DF(t): t가 등장한 document 개수 / N: 총 document 개수
- TF + IDF
- BM25
  - TF-IDF의 개념을 바탕으로, 문서의 길이까지 고려하여 점수를 매김

함께 자라기