Koala 프로젝트 중간 점검

O(logn)·2023년 11월 19일

gpu

KOALA 프로젝트

목록 보기

3/9

개요

주제: 논문 레퍼런스 검색을 위한 미니 검색 엔진
배경: 논문 작성 시 레퍼런스 검색이 가장 귀찮고 시간이 많이 드는 일임. DB의 모든 논문의 자료를 검색하여 찾고자 하는 정보와 가장 가까운 문장을 찾아주면 좋겠다는 취지에서 개발하게 됨.
참고: chatgpt4 scholarAI 플러그인, hugging face semetic search

한 일

1. 데이터 수집

한계

논문 데이터 본문이 필요 -> 저작권 문제로 대량 구하기 쉽지 않음

해결

pubmed dataset 공개 데이터셋 활용
실질적으로 사용을 위해서는 다양한 토픽의 데이터셋 필요

2. 데이터 전처리

텍스트 임베딩 모델

FAISS라이브러리를 활용해 텍스트 전처리, Sbert임베딩, 최적화까지 한번에 해결되었다.
장점: C++로 개발되어 검색 속도가 1초도 되지 않는다.
단점: 내부 동작 원리를 몰라 커스터마이징이 어렵다.

# 패키지 IMPORT
# !pip install faiss-gpu
# !pip install -U sentence-transformers

import numpy as np
import os
import pandas as pd
import urllib.request
import faiss
import time
from sentence_transformers import SentenceTransformer

# SBERT embedding
model = SentenceTransformer('distilbert-base-nli-mean-tokens')
encoded_data = model.encode(data)
print('임베딩 된 벡터 수 :', len(encoded_data))

# 인덱스 정의 및 데이터 추가
index = faiss.IndexIDMap(faiss.IndexFlatIP(768))
index.add_with_ids(encoded_data, np.array(range(0, len(data))))

faiss.write_index(index, 'abc_news')

# 검색 시간 측정
def search(query):
    t = time.time()
    query_vector = model.encode([query])
    k = 10
    top_k = index.search(query_vector, k)
    print('total time: {}'.format(time.time() - t))
    
    return [data[_id] for _id in top_k[1].tolist()[0]]

# 쿼리 입력
query = str(input())
results = search(query)

print('results :')
for result in results:
    print('\t', result)