정보검색이란? > 수많은 collections에서 원하는 정보에 만족하는 구조화 되어있지 않은 데이터를 찾는 법이다. Boolean retrieval : true, flase로 결과가 나오는 모델
Boolean Retrieval은 검색 결과가 너무 적거나, 너무 많거나 할 수 있다. Boolean Retrieval 질의 방법은 일반사용자가 사용하기 불편하다. 이러한 단점을 보완한 것이 Ranked Retrieval 🔍 Query-document matchi
(relavant items retrieved / retrieved items)recall(재현율) : (시스템 결과 맞춘 문서 수 / 실제 정답인 문서 수)(relavant items retrieved / relevant items) TP : 추출된 문서 중 정답인
ex) 같은 의미를 가진 다른 단어도 검색이 가능하게 하기결과 문서들을 순서대로 탐색하며 관련있는지, 없는지 직접 체크그 결과를 가지고 다시 검색하여 보여줌 \-> (Relavance Feedback으로 인한 변화)Centroid : 결과 문서들의 제일 가운데에 점을
동시에 일어날 확률 P(A∩B) = P(A,B)B가 일어나고 A가 일어날 확률 P(A|B) = P(A,B) / P(B)O(A) = P(A) / P(𝐴 ̅) = (A가 일어날 확률 / A가 일어나지 않을 확률)P(R=1|d,q) : 해당 문서가 정답일 확률BIM (
여러 단어로 이루어진 열에 확률 값을 매김음성 인식에 사용가정 : 각 단어의 등장 확률은 서로 독립적이다.각 단어의 확률을 곱해서 구한다. 다음이 언어모델이다.P(d|q) : 쿼리가 주어졌는데 해당 문서가 정답일 확률P(q)는 모든 상황에 같기 때문에 무시한다.P(d
문서 집합에서 비슷한 문서끼리 그룹화 하는 것거리가 가까운 것끼리 묶음training set 없이 작업한다.(unsupervised learning)※classification과 clustering의 차이classification은 supervised learning이
(사전에 필요한 것) training set 문서들마다 어떤 클래스에 속하는지 라벨링을 해준다. 🔍 Vector space classification 새로운 문서가 어떤 클래스(vector space)에 속하는지 분류하는 것 구분선을 찾아야한다! ✔ 방법 1.
Flat clustering : 일반적인 clusteringHierarchical clustering : 계층적으로 상하 관계가 있는 ClusteringHard clustering : 하나의 문서는 하나의 cluster에 속해있음Soft clustering : 하나의
질의가 들어오면 연관성이 높은 문서들을 출력한다질의와 문서를 BERT 신경망에 넣어 점수를 구한다. 점수를 바탕으로 랭킹을 매긴다.(BERT는 기계학습 모델이다)Transformer 모델 : query의 단어들을 분석해 연관성이 높은 것을 다음 윗 계층으로 올린다.BE
그래프를 사용하여 표현 - 중요도(weight)(authority)를 이용 ✔ 예시 Web 각 노드는 웹 페이지, edge는 링크, 방향이 있는 그래프가 된다. (구글 검색엔진) 중요도를 사용하여 더 중요한 정보를 보여줄 수 있게됨 ✔ 용어 Directed