시리즈

정보검색

1.🔍 검색 알고리즘 Boolean Retrieval

정보검색이란? > 수많은 collections에서 원하는 정보에 만족하는 구조화 되어있지 않은 데이터를 찾는 법이다. Boolean retrieval : true, flase로 결과가 나오는 모델

2023년 10월 20일

2.🔍 2. Ranked Retrieval 검색 알고리즘

Boolean Retrieval은 검색 결과가 너무 적거나, 너무 많거나 할 수 있다. Boolean Retrieval 질의 방법은 일반사용자가 사용하기 불편하다. 이러한 단점을 보완한 것이 Ranked Retrieval 🔍 Query-document matchi

2023년 10월 22일

3.🔍 3. 검색 시스템 평가 (정확률/재현율)

(relavant items retrieved / retrieved items)recall(재현율) : (시스템 결과 맞춘 문서 수 / 실제 정답인 문서 수)(relavant items retrieved / relevant items) TP : 추출된 문서 중 정답인

2023년 10월 22일

4.🔍 4. 검색의 재현율, Relevance Feedback

ex) 같은 의미를 가진 다른 단어도 검색이 가능하게 하기결과 문서들을 순서대로 탐색하며 관련있는지, 없는지 직접 체크그 결과를 가지고 다시 검색하여 보여줌 \-> (Relavance Feedback으로 인한 변화)Centroid : 결과 문서들의 제일 가운데에 점을

2023년 10월 22일

5.🔍 5. 검색에 사용하는 확률 모델

동시에 일어날 확률 P(A∩B) = P(A,B)B가 일어나고 A가 일어날 확률 P(A|B) = P(A,B) / P(B)O(A) = P(A) / P(𝐴 ̅) = (A가 일어날 확률 / A가 일어나지 않을 확률)P(R=1|d,q) : 해당 문서가 정답일 확률BIM (

2023년 10월 24일

6.🔍 6. 검색을 위한 언어 모델

여러 단어로 이루어진 열에 확률 값을 매김음성 인식에 사용가정 : 각 단어의 등장 확률은 서로 독립적이다.각 단어의 확률을 곱해서 구한다. 다음이 언어모델이다.P(d|q) : 쿼리가 주어졌는데 해당 문서가 정답일 확률P(q)는 모든 상황에 같기 때문에 무시한다.P(d

2023년 10월 24일

7.🔍 Flat Clustering

문서 집합에서 비슷한 문서끼리 그룹화 하는 것거리가 가까운 것끼리 묶음training set 없이 작업한다.(unsupervised learning)※classification과 clustering의 차이classification은 supervised learning이

2023년 12월 15일

8.🔍 문서 분류 : Vector space classification

(사전에 필요한 것) training set 문서들마다 어떤 클래스에 속하는지 라벨링을 해준다. 🔍 Vector space classification 새로운 문서가 어떤 클래스(vector space)에 속하는지 분류하는 것 구분선을 찾아야한다! ✔ 방법 1.

2023년 12월 15일

9.🔍 Hierarchical Clustering

Flat clustering : 일반적인 clusteringHierarchical clustering : 계층적으로 상하 관계가 있는 ClusteringHard clustering : 하나의 문서는 하나의 cluster에 속해있음Soft clustering : 하나의

2023년 12월 16일

10.🔍 Neural 신경망 검색 알고리즘

질의가 들어오면 연관성이 높은 문서들을 출력한다질의와 문서를 BERT 신경망에 넣어 점수를 구한다. 점수를 바탕으로 랭킹을 매긴다.(BERT는 기계학습 모델이다)Transformer 모델 : query의 단어들을 분석해 연관성이 높은 것을 다음 윗 계층으로 올린다.BE

2023년 12월 17일

11.🔍 Graph based IR

그래프를 사용하여 표현 - 중요도(weight)(authority)를 이용 ✔ 예시 Web 각 노드는 웹 페이지, edge는 링크, 방향이 있는 그래프가 된다. (구글 검색엔진) 중요도를 사용하여 더 중요한 정보를 보여줄 수 있게됨 ✔ 용어 Directed

2023년 12월 18일