์ด๋ฒ ๊ธ์์๋ ์ ๊ฐ ์ฐธ์ฌํ๋ IR(Information Retrieval) ๊ฒฝ์ง๋ํ์์ ์ด๋ค ๊ณผ์ ์ ๊ฑฐ์ณ ์ฑ๋ฅ์ ๋์ด์ฌ๋ ธ๋์ง ์ ๋ฆฌํด๋ณด๋ ค ํฉ๋๋ค.
์ฒ์์๋ ๋จ์ํ Baseline์์ ์์ํ์ง๋ง, ๋ค์ํ ์ ์ฒ๋ฆฌ์ ๋ชจ๋ธ ์คํ์ ๊ฑฐ์น๋ฉฐ ์ ์๋ฅผ ๊ฐ์ ํ๊ณ , ์ต์ข
์ ์ผ๋ก๋ Dual Dense ์์๋ธ์ด๋ผ๋ ์ ๊ทผ์ผ๋ก ๋ง๋ฌด๋ฆฌํ ์ ์์์ต๋๋ค.
๊ฒฝ์ง๋ํ์ ์ฒซ ๋จ๊ณ๋ ๋ฐ์ดํฐ ๋ถ์์ด์์ต๋๋ค.
๊ฒฐ์ธก๊ฐ ์ ๊ฒ: docid, title, content ๊ฐ์ ์ฃผ์ ํ๋์ ๊ฒฐ์ธก์ ๊ฑฐ์ ์์์ต๋๋ค.
๋ฐ์ดํฐ ์ ๋ฆฌ: ๋ค๋ง ๋ฌธ์ ๋ด ๋ถํ์ํ ๊ณต๋ฐฑ๊ณผ ๋น์ ์์ ์ธ ํ ์คํธ๊ฐ ์์ด์ ์ ๊ทํ๋ฅผ ํตํด ์ ๋ฆฌํ์ต๋๋ค.
๋ฌธ์ ๊ธธ์ด ๋ฌธ์ : ๋ฌธ์ ๊ธธ์ด๊ฐ ์ ๊ฐ๊ฐ์ด์ด์ ๋จ์ผ ๋ฌธ์ ๋จ์ ๊ฒ์์ผ๋ก๋ ์ฑ๋ฅ์ด ๋ฎ๊ฒ ๋์์ต๋๋ค.
โ ์ด๋๋ถํฐ โchunking ์ ๋ต์ด ํ์ํ๋คโ๋ ๊ฒฐ๋ก ์ ์ป๊ฒ ๋์์ต๋๋ค.
๋ณธ๊ฒฉ์ ์ธ ์ ์ฒ๋ฆฌ ๋จ๊ณ์์๋ ๋ค์ํ feature ์์ง๋์ด๋ง์ ์๋ํ์ต๋๋ค.
Chunking: window์ stride๋ฅผ ์กฐ์ ํ๋ฉด์ ์ฌ๋ฌ ์คํ์ ์งํํ์ต๋๋ค.
์ต์ ์กฐํฉ์ win=420, stride=300์ด์๊ณ , ์ด๋ ์ฑ๋ฅ์ด ๊ฐ์ฅ ๋์์ต๋๋ค.
์ค๋ณต ๋ฐฉ์ง: ๊ฐ์ ๋ฌธ์์์ ๊ณผ๋ํ๊ฒ ๋ง์ ์ฒญํฌ๊ฐ ๋ค์ด๊ฐ์ง ์๋๋ก same-doc limit์ 2~3์ผ๋ก ์ ํํ์ต๋๋ค.
ํ ํฐํ & ์๋ฒ ๋ฉ:
Sparse ๋ชจ๋ธ(BM25)์๋ Kiwi ํํ์ ๋ถ์๊ธฐ๋ฅผ ์ ์ฉํด ํ ํฐ ๋จ์ ๊ฒ์ ์ฑ๋ฅ์ ๋์์ต๋๋ค.
Dense ๋ชจ๋ธ์ nlpai-lab/KURE-v1 ์๋ฒ ๋ฉ์ ์ฌ์ฉํด FAISS ์ธ๋ฑ์ค๋ฅผ ๊ตฌ์ถํ์ต๋๋ค.
์ด ๊ณผ์ ์์ chunking ์ ๋ต ํ๋๋ง์ผ๋ก๋ MAP์ด 0.33 โ 0.52๊น์ง ์์นํ๋ ํฐ ํจ๊ณผ๋ฅผ ํ์ธํ ์ ์์์ต๋๋ค.
๋ชจ๋ธ๋ง์ ๋จ๊ณ์ ์ผ๋ก ์งํํ์ต๋๋ค.
Fusion ๊ธฐ๋ฒ ๋น๊ต:
RRF(Reciprocal Rank Fusion): ์์ ์ ์ธ ์ฑ๋ฅ ์ ์ง (MAP 0.51 ์ด์)
z-score weighted sum: ์คํ๋ ค ์ฑ๋ฅ ํ๋ฝ (MAP 0.39~0.43)
๐ ์ด ๊ณผ์ ์์ RRF ๊ธฐ๋ฐ hybrid retrieval์ด ์์ ์ ์ธ ์ ํ์ง๋ผ๋ ๊ฑธ ์๊ฒ ๋์์ต๋๋ค.
Dense Retrieval: KURE-v1 ์๋ฒ ๋ฉ์ผ๋ก FAISS ์ธ๋ฑ์ค ๊ตฌ์ถ, cosine ์ ์ฌ๋ ๊ธฐ๋ฐ ํ๋ณด ๊ฒ์
BM25 Retrieval: Kiwi ํํ์ ๋ถ์๊ธฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก BM25Retriever ๊ตฌ์ฑ
Hybrid ์์๋ธ: BM25 20%, Dense 80% ๋น์จ๋ก ๊ฐ์ค์น๋ฅผ ์ค recall๊ณผ semantic match๋ฅผ ๋์์ ๋ฐ์
Cross-Encoder Rerank: BAAI/bge-reranker-v2-m3 ๋ชจ๋ธ๋ก queryโ๋ฌธ์ ์์ ์ ๋ฐํ๊ฒ scoring ํ ์์ 3๊ฐ๋ง ์ ํ
ํ์ฒ๋ฆฌ: greet_id์ ํด๋นํ๋ ํน์ ์ง์๋ noise๋ก ๊ฐ์ฃผํ๊ณ ๊ฐ์ ๋ก ์ ์ธ
-> ์ด ์ ๊ทผ์ โBM25๋ก ์ ํํ ํค์๋ ๋งค์นญ์ ํ๋ณดํ๊ณ , Dense๋ก ์๋ฏธ ๊ธฐ๋ฐ ๊ฒ์์ ๊ฐํํ ๋ค, ๋ง์ง๋ง์ Cross-Encoder๋ก ์ ๋ฐ๋๋ฅผ ๋์ด์ฌ๋ฆฐ ๋ฐฉ์โ์ด์์ต๋๋ค. ์ฑ๋ฅ์ ์์ ์ ์ผ๋ก ์์๊ถ์ ์ ์งํ๋ฉด์ precision์ด ๊ฐ์ ๋์์ต๋๋ค.
์ต์ข ์ ์ผ๋ก ์ ํฌ ํ์ด ์ ํํ ๋ฐฉ์์ Dual Dense ์์๋ธ์ ๋๋ค.
๋ ๊ฐ์ FAISS ์ธ๋ฑ์ค ์ฌ์ฉ:
Semantic ์ธ๋ฑ์ค์ ๋ ๋์ ๋น์ค์ ๋์ด ์์ ์ฑ์ ํ๋ณด
Question ์ธ๋ฑ์ค๋ ์๋ ๋ฐ์ํด recall์ ๋ณด์
ํ์ฒ๋ฆฌ: docid ์ค๋ณต ์ ๊ฑฐ ํ ์ต์ข ์์ 3๊ฐ๋ง ๋ฐํ
k=3์ ์ ์งํ ์ด์ ๋, ํ๊ฐ ์งํ(MAP, MRR)๊ฐ top-3 ๊ธฐ์ค์ผ ๋ ๊ฐ์ฅ ์์ ์ ์ผ๋ก ๊ฐ์ ๋์๊ธฐ ๋๋ฌธ์
๋๋ค.
์ด ๋ฐฉ์์ Cross-Encoder๋ฅผ ์ฐ์ง ์๊ณ ๋ ๋น ๋ฅด๋ฉด์ ์์ ์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๊ณ , ํจ์จ์ฑ๊ณผ ์ ์์ ๊ท ํ์ ๋ง์ถ ์ต์ข
์ ํ์ง๊ฐ ๋์์ต๋๋ค.
๋จ์ํ Baseline์์ ์์ํด, ์ ์ฒ๋ฆฌ โ Hybrid โ Rerank โ ์์๋ธ๊น์ง ๋ค์ํ ์คํ์ ๊ฑฐ์น๋ฉด์ ์ ์ง์ ์ผ๋ก ์ฑ๋ฅ์ ๊ฐ์ ํ ๊ณผ์ ์์ฒด๊ฐ ํฐ ํ์ต ๊ฒฝํ์ด์์ต๋๋ค.
ํนํ, ๋จ์ํ ๋ชจ๋ธ์ ๊ต์ฒดํ๋ ๊ฒ์ด ์๋๋ผ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ retrieval ์ ๋ต ์ค๊ณ๊ฐ ๋ ์ค์ํ๋ค๋ ๊ฑธ ์ด๋ฒ ๋ํ๋ฅผ ํตํด ๋ค์ ํ ๋ฒ ํ์ธํ ์ ์์์ต๋๋ค.