질문에 맞는 문서(Passage)를 찾는 Task
ODQA(Open-Domain Question Answering) Task와 더불어 유명해짐
대규모 문서 중 질문에 대한 답을 찾는 Task
Passage Embedding의 벡터 공간
벡터화된 Passage를 활용해 Passage간 유사도 알고리즘 등을 통해 계산할 수도 있음
단어가 문서에 등장하는지 여부를 확인하여 문서를 찾는 Passage Retrieval 방식
BoW(Bag-of-words)를 구성하는 방법
Term Value를 결정하는 방법
Dimension of Embedding Vector = Number of Terms
Term Overlap을 정확하게 Search해야할 때 유용
유사어에 대한 비교가 불가
(Document 내에) 단어의 등장 빈도
Raw Count를 수행하고 여러 가지 방법을 통해 Normalization을 수행함
단어가 제공하는 정보의 양
단어가 얼마나 (다른 Document)에 등장하는지 여부를 확인
자주 출현한 단어들은 TF-IDF 점수가 낮음
TF가 낮음 : 1개의 Document에 대해 Term이 낮음
IDF가 낮음 : 모든 Document에 자주 나오는 Term
사용자가 입력한 Question을 Tokenization
질의(Question)을 하나의 문서로 생각하여 TF-IDF 계산
각 문서별 TF-IDF 값을 곱하여 유사도 점수 계산
가장 높은 점수를 가지는 문서 선택
TF-IDF 개념을 바탕으로 문서 길이까지 고려하여 점수를 매기는 ㅓㅅ
TF 값에 한계를 지정하여 범위를 유지함
평균적인 문서 길이보다 작은 문서에서 단어가 매칭될 경우 가중치를 부여
실제 검색엔진, 추천시스템 등에서 많이 활용되는 알고리즘
작은 차원의 고밀도 벡터로 Mapping되는 방식
각 차원이 특정 Term에 대응되지 않음
대부분 요소가 Non-zero 값
중요한 Term들이 정확히 일치해야 하는 경우 성능이 뛰어남
Embedding이 구축된 이후 추가적인 학습이 불가능
단어 유사성 및 맥락을 파악하는 경우 성능이 뛰어남
학습을 통해 Embedding이 만들어지며 추가적인 학습도 가능
최근 사전학습 모델의 등장 및 검색 기술의 발전 등으로 Dense Embedding이 활발히 이용되고 있음

학습 목표 : 연관된 Question과 Passage Dense Embedding 간의 거리를 좁히는 것
정답인 Passage일수록 점수가 높고, 아닐 경우 낮도록(음수가 나오도록) 학습이 진행됨
Negative Sampling : 정답이 아닌 Sample들을 추가로 뽑아 거리를 멀게 하는 학습 방법
성능 올리는 방법