[부스트캠프 AI-Tech] 16주차 Day 3

LKM·2022년 7월 25일
0

✏️학습 정리


10. QA with Phrase Retrieval

  • Retriever-Reader의 한계
    • 5-10개의 문서만 reader에게 전달 (Error Propagation)
    • query에 따라 정답이 되는 answer span에 대한 encoding이 달라짐 (Query-dependent encoding)
    • Retrieve-Read 두 단계 말고 정답을 바로 search 할 수는 없나??
      • Phrase Indexing
  • Dense-sparse Representation for Phrases
    • Dense vector: 통사적, 의미적 정보를 담는데 효과적
      • pre-trained LM (e.g. BERT) 이용
    • Sparse vector: 어휘적 정보를 담는 데 효과적
      • 문맥화된 임베딩을 활용하여 가장 관련성이 높은 n-gram으로 sparse vector 구성
      • Scalability 문제 존재
    • phrase embedding: 모두 사용
  • Phrase Retireval 한계
    • 큰 용량의 storage 필요 (2TB SSD)
    • 최신 Retrieve-reader 모델 대비 낮은 성능 (Natural Question에서)
      • Decomposability gap
        • (기존) Question, passage, answer가 모두 함께 encoding
        • (Phrase Retrieval) Question과 passage/answer 각각 encoding → Question과 passage 사이 attention 정보 X
profile
함께 자라기

0개의 댓글