
1. ์ ์ด ๋ฉํ ๋ง์ ์ฐธ์ฌํ๋๊ฐ ChatGPT๊ฐ "๊ทธ๊ฑด ์ ๋ชจ๋ฅด๊ฒ ์ด์"๋ผ๊ณ ๋ตํ ๋๋ง๋ค, ๋๋ RAG ์์คํ ์ด ๋ถ๋ช ๋ฌธ์์ ์๋ ์ ๋ณด๋ฅผ ๋ชป ์ฐพ์๋ผ ๋๋ง๋ค ๊ฐ์ ์๋ฌธ์ด ๋ค์์ต๋๋ค. > ๋น์ ํ ๋ฌธ์ ์ฌ์ด์ ๊ด๊ณ๋ฅผ LLM์ด ์ถ๋ก ํ๊ฒ ๋ง๋ค ์๋ ์์๊น? VectorRAG
์ด ์ฑํฐ์ thesis๋ ๋ค์๊ณผ ๊ฐ๋ค. ์ด์ ํ์ง๋ ๋ณธ์ง์ ์ผ๋ก "ํฉ์ด์ง ์๋ณ์๋ค์ด ๊ฐ์ ์ธ๋ฌผยท์ง๋จ์ ๊ฐ๋ฆฌํค๋์ง"๋ฅผ ํ๋ณํ๋ entity linking ๋ฌธ์ ์ด๋ฉฐ, ๊ทธ๋ํ๋ ์ด๋ฅผ ๊ด๊ณ์ ์ง์ ์ ์ธ ํํ์ผ๋ก ํ์ํด ๋จ์ํ SQL ์ง์๋ก๋ ๋๋ฌํ ์ ์๋ ํจํด์ ๋๋ฌ๋ธ๋ค. Su
์ด ์ฑํฐ์ thesis๋ ๋ค์๊ณผ ๊ฐ๋ค. ์ถ์ฒ์ ๋ณธ์ง์ ์ผ๋ก "๊ด๋ จ ์๋ ํ๋ณด๋ฅผ ์ฐพ๋ ๋จ๊ณ"์ "๋ถ์ ์ ํ ํ๋ณด๋ฅผ ๊ฑธ๋ฌ๋ด๋ ๋จ๊ณ"๋ก ๋ถํด๋๋ฉฐ, RAG๋ vector similarity๋ก ์ ์๋ฅผ, similarity score cutoff๋ก ํ์๋ฅผ ์ํํ๋ค. KG์ LLM์ด
์ด์ ํธ์์ graph representation learning๊ณผ message passing์ ์ผ๋ฐ๋ก ์ ๋ค๋ค๋ค. ์ด๋ฒ ์ฑํฐ๋ ๊ทธ ์์์ ์ค์ ๋ก ๋ ๊ฐ์ง ๋ํ ํ์คํฌโnode classification๊ณผ link predictionโ๋ฅผ ์ด๋ป๊ฒ ๋์ผํ framework
์ด์ ํธ๊น์ง์ GraphRAG ์๋ฆฌ์ฆ๋ ์ง์ ๊ทธ๋ํ๋ฅผ "๊ตฌ์ฑ"ํ๊ณ "ํ์"ํ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ค๋ค. ํ ์คํธ๋ก๋ถํฐ entity๋ฅผ ์ถ์ถํ๊ณ , ๊ด๊ณ๋ฅผ ์ ์ ํ๊ณ , Cypher๋ก traversalํ๋ ํ๋ฆ์ด๋ค. ๊ทธ๋ฌ๋ ๊ทธ๋ํ ์์์ ML ๋ชจ๋ธ์ ์ง์ ํ์ต์ํค๋ ค๋ฉด ๋ ํ๋์ ๋จ๊ณ๊ฐ ํ
์ด๋ฒ ๊ธ์ thesis๋ ๋ค์๊ณผ ๊ฐ๋ค. ๊ทธ๋ํ ML์ ์ฑ๊ณต์ vectorization์ ํ์ง์ ๋ฌ๋ ค ์์ผ๋ฉฐ, ๊ทธ ํ์ง์ ํด์๊ฐ๋ฅ์ฑ๊ณผ ์๋ํ ์ฌ์ด์ ์์์ trade-off๋ก ๊ฒฐ์ ๋๋ค. Manual feature engineering, semiautomated ์ ๊ทผ(Re
์ด๋ฒ ๊ธ์ thesis๋ ๋ค์๊ณผ ๊ฐ๋ค. ๊ทธ๋ํ ์์ ML์ ์ ํต์ ML์ i.i.d. ๊ฐ์ ์ ๊นจ๋จ๋ฆฌ๋ฉฐ, ๊ทธ ๊นจ์ง์ด์ผ๋ง๋ก ๊ทธ๋ํ ๊ธฐ๋ฐ ์ ๊ทผ์ ๊ฐ์น๊ฐ ๋ฐ์ํ๋ ์ง์ ์ด๋ค. ๋ ธ๋๋ฅผ ๋ ๋ฆฝ์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ก ๋ค๋ฃจ๋ ๊ฒ์ ๊ทธ๋ํ์ ์ธ์ฝ๋ฉ๋ ๊ด๊ณ ์ ๋ณด๋ฅผ ๋ฒ๋ฆฌ๋ ๊ฒ๊ณผ ๊ฐ๋ค. ๋ฐ๋ผ์ K
์ด๋ฒ ๊ธ์ thesis๋ ๋ค์๊ณผ ๊ฐ๋ค. ๊ทธ๋ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฐ๊ฒฐ๋ ๋ฐ์ดํฐ์์ ์จ๊ฒจ์ง ํจํด์ ๋๋ฌ๋ด๋ ๋๊ตฌ์ด๋ฉฐ, 5๊ฐ์ ์นดํ ๊ณ ๋ฆฌ โ Centrality, Community Detection, Similarity, Link Prediction, Network Embeddin
RAG์ ํ๊ณ๋ฅผ ์ธ์ํ๊ณ , ์์ฐ์ด ์ง๋ฌธ์ KG์ ์ง์ ์คํ ๊ฐ๋ฅํ formal query๋ก ๋ณํํ๋ 4๋จ๊ณ ํ์ดํ๋ผ์ธ โ Intent Detection, Schema-to-LLM ๋ณํ, Reasoning-First Query Generation, Summarizatio
GraphRAG ์๋ฆฌ์ฆ๋ ์ง๊ธ๊น์ง knowledge graph์ ๊ตฌ์ถ, ์ํฐํฐ ์ถ์ถ, ๊ด๊ณ ๋ชจ๋ธ๋ง, ๊ทธ๋ํ ๋ถ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ค๋ฃจ์ด ์๋ค. ๊ทธ๋ฌ๋ ์ ๊ตฌ์ถ๋ KG๋ผ ํ๋๋ผ๋ ๊ทธ๊ฒ์ ์ค์ ๋ก ํ์ฉํ๋ ๋จ๊ณ์์๋ ์๋ก์ด ๋ณ๋ชฉ์ด ๋ฐ์ํ๋ค. KG ์ง์๋ ์ ํต์ ์ผ๋ก Cypher๋
Neo4j ์๋ฆฌ์ฆ์ ์์ ๊ธ๋ค์์ ๊ทธ๋ํ ๋ฐ์ดํฐ ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ๋ ธ๋ยท๊ด๊ณ์ ์ ์ฅ ๋ฐฉ์์ ๋ค๋ฃจ์๋ค. ๋ชจ๋ธ์ด ์ ์๋์๋ค๋ฉด ๋ค์ ๋จ๊ณ๋ ๊ทธ๊ฒ์ ์ง์ํ๋ ์ธ์ด๋ค. Cypher๋ ๊ทธ๋ํ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ง์๋ฅผ ์ํ declarative query language๋ก, SQL์ด ๊ด๊ณํ
์ผ๋ฐ์ ์ธ VectorRAG ๊ตฌ์กฐ์ ๋์ผํ chunker ์ ์ฑ ์ ์ ์งํ๋ฉด์ GraphRAG ๋ ์ด์ด๋ฅผ ์ถ๊ฐํ์ ๋, ์ด๋ค ์๋ก์ด ์ง์ ํจํด์ด ๊ฐ๋ฅํ์ง โ ๊ทธ๋ฆฌ๊ณ production ์ ์ฉ ์ ๋ง์ฃผํ ๋ณธ์ง์ trade-off ์ ๋ํ ๊ธฐ๋ก.ํ ํ์ด์ง ๋ถ๋์ PDF ๋ฌธ์์์ ํ
์ด์ ์ฑํฐ์์ Bloom๊ณผ Power BI๋ฅผ ํตํด Neo4j ๊ทธ๋ํ๋ฅผ ์๊ฐํํ๋ ๋ฐฉ๋ฒ์ ๋ค๋ค๋ค๋ฉด, ์ด ์ฑํฐ๋ ๊ทธ ์๊ฐํ์ ์ ๋ ฅ์ด ๋๋ ๋ฐ์ดํฐ ์์ฒด๋ฅผ ์ด๋ป๊ฒ ํ๋ถํ๊ฒ ๋ง๋ค ๊ฒ์ธ๊ฐ์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค. ์ด ์ฑํฐ์ thesis๋ ๋ค์๊ณผ ๊ฐ๋ค. ๊ทธ๋ํ ๋ฐ์ดํฐ์ ๊ฐ์น๋ ๋ ธ๋์ ๊ด๊ณ
๋ฐ์ดํฐ ์ฌ์ด์ธ์ค์์ ์๊ฐํ๋ ๋ถ์ ๋๊ตฌ๊ฐ ์๋๋ผ ๋ฐ์ดํฐ์ ๋ณต์กํ ์ฐจ์์ ์ดํด ๊ฐ๋ฅํ๊ณ ์ํ ๊ฐ๋ฅํ๋ฉฐ ์คํ ๊ฐ๋ฅํ ํต์ฐฐ๋ก ๋ฒ์ญํ๋ ํต์ฌ ๋จ๊ณ๋ค. ๊ทธ๋ํ ๋ฐ์ดํฐ๋ ํนํ ์๊ฐํ ์์กด๋๊ฐ ๋๋ค. ๋ ธ๋ ์๊ฐ ์๋ฐฑ์ ๋์ด๊ฐ๋ฉด ํ ํํ์ raw ๋ฐ์ดํฐ๋ก๋ ํจํด์ ์๋ณํ ์ ์์ผ๋ฉฐ,
๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค๊ฐ ํ ์ด๋ธ๋ก ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๋ ๋ฐ๋ฉด, Neo4j ๊ฐ์ ๊ทธ๋ํ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ ๋ ธ๋(node), ์ฃ์ง(edge), ์์ฑ(property)์ผ๋ก ๊ตฌ์ฑ๋ ๊ทธ๋ํ ๊ตฌ์กฐ๋ก ๋ฐ์ดํฐ๋ฅผ ํํํ๊ณ ์ ์ฅํ๋ค. ์ด ์ฐจ์ด๋ ๋จ์ํ ์๋ฃ๊ตฌ์กฐ ์ฐจ์์ ์ ํ์ด ์๋๋ผ, ์ํธ ์ฐ๊ฒฐ๋
์ด์ ํธ์์๋ NED ์์คํ ์ 3๋จ๊ณ ์ํคํ ์ฒ(candidate selection โ ranking โ ontology integration)์ EntityMentionโMedicalEntity ๋ถ๋ฆฌ schema๋ฅผ ๋ค๋ค๋ค. ๊ทธ ๋ ผ์์ reference ๋๊ตฌ๊ฐ scisp
์ด์ ํธ์์ ๋น์ ํ ํ ์คํธ๋ก๋ถํฐ NERยทRE ํ์ดํ๋ผ์ธ์ ํตํด entity์ relation์ ์ถ์ถํ๋ ๊ณผ์ ์ ๋ค๋ค๋ค. ๊ทธ๋ฌ๋ NER์ ์ถ๋ ฅ์ "์ด๋ค ๋ฌธ์์ด์ด entity์ธ๊ฐ"๊น์ง๋ง ๋ตํ ๋ฟ, "๊ทธ ๋ฌธ์์ด์ด ์ ํํ ์ด๋ entity๋ฅผ ๊ฐ๋ฆฌํค๋๊ฐ"๋ ๋ตํ์ง ๋ชปํ๋ค. ์ด
์ด ์ฑํฐ์ thesis๋ ๋จ์ํ๋ค. LLM์ KG๋ฅผ ์ง์ ์์ฐํ์ง ์๋๋ค. LLM์ KG๋ฅผ ๋ง๋ค๊ธฐ ์ํ ์ค๊ฐ ์ฐ์ถ๋ฌผ(metagraph)์ ์์ฐํ๊ณ , ์ ๊ทํยทentity resolution์ ๊ฑฐ์ณ์ผ ๋น๋ก์ KG๊ฐ ๋๋ค.์ด์ ํธ๊น์ง vector RAG์ graph RAG์
์ด์ ์ฑํฐ๊น์ง ๋ค๋ฃฌ KG๋ ํ ์ด๋ธยท๊ด๊ณํ DBยท๊ธฐ์กด knowledge base ๊ฐ์ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ฅผ ์ ์ ๋ก ํ๋ค. ๊ทธ๋ฌ๋ ์ค๋ฌด์์ ๋ง์ฃผํ๋ ๋๋ฉ์ธ ์ง์ ๋๋ถ๋ถ์ ๋ ผ๋ฌธยท๋ณด๊ณ ์ยท์์นด์ด๋ธ ๋ฌธ์ ๊ฐ์ ๋น์ ํ ํ ์คํธ์ ์ ๊ฒจ ์๋ค. ์ด ์ฑํฐ์ thesis๋ ๋ค์๊ณผ ๊ฐ๋ค. ๋น์ ํ
๋จ์ผ ์ถ์ฒ ๊ทธ๋ํ๋ ์ ๋ณด๋ฅผ ์ ์ฅํ์ง๋ง, ๋ค์ค ์์ค ํตํฉ KG๋ ์ ๋ณด๋ฅผ ์ฐ๊ฒฐํ๋ค.์ด์ ๊น์ง์ ๋ ผ์๊ฐ ๋จ์ผ ๋๋ฉ์ธยท๋จ์ผ ์ถ์ฒ์์ knowledge graph(KG)๋ฅผ ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ์ ๋จธ๋ฌผ๋ ๋ค๋ฉด, ์ด ์ฑํฐ๋ ์ด์ง์ ์ธ ๋ฐ์ดํฐ์ ์ ํ๋์ ๋์ง ๊ทธ๋ํ(homogeneous grap