대학원 수업 과제로 온톨로지, 지식그래프, LLM 융합 관점의 논문들을 서치하고, 연구동향을 파악해보았다. 포커스는 KGs를 구축하는 관점과 LLM의 한계점이나 성능 향상에 KGs를 활용하는 측면으로 접근했고, 위와 같은 상호 보완적 관계를 정리할 수 있었다. 보고서는 공유할만큼 잘 정리하진 못한듯하여 제외하고(다음에 좀더 다듬어서 포스트로 작성해보겠음), 작성 과정에서 검토한 논문들을 주제별로 정리하여 공유하려 한다. Ontology-driven Agents Architecture 부분은 다소 미흡한 점이 있다는 것을 유의해주길..!
.
.
.
-
Iterclean: An iterative data cleaning framework withlarge language models(Ni, W., Zhang, K., Miao, X., Zhao, X., Wu, Y., &Yin, J., 2024)
- (프롬프트 기반 전처리) LLM이 컬럼 단위로 데이터 그룹핑, 오류 탐지, 검증, 수정을 반복하는 방식의 전처리 프레임워크를 제안한 논문. 약 5개 정도의 소량의 레이블만으로도 오류 패턴을 인식하도록 하고, 단계별로 오류를 탐지하고 수정하는 과정을 추가하여 기존의 규칙, ML 기반 방식보다 높은 정제 성능을 보였음
-
Large language models as data preprocessors(Zhang, H., Dong, Y., Xiao, C., &Oyamada, M., 2023)
- (프롬프트 기반 전처리) 레코드 단위로 각 튜플을 자연어 형식으로 변환하고, zero-shot, few-shot 등을 활용해 오류를 탐지하며 값을 보완하는 등의 전처리 작업을 수행했으며, 코드 없이 프롬프트만으로 다양한 데이터 품질 문제를 해결할 수 있다는 것을 실증한 논문
-
Cleanagent: Automating datastandardization with llm-based agents(Qi, D., Miao, Z., & Wang, J., 2024)
- (코드 기반 전처리) Multi-Agents 구조를 기반으로 테이블 내 컬럼 유형을 자동으로 분류하고, 사전에 정의한 파이썬 기반 전처리 함수를 호출하여 실행하는 'CleanAgent'를 제안한 논문. 사용자 개입을 최소화한 상태에서 주소, 날짜, 전화번호 등 다양한 유형의 데이터를 일관된 형식을 표준화할 수 있음
-
Data cleaning using largelanguage models(Zhang, S., Huang, Z., & Wu, E., 2025).
- (코드 기반 전처리) Cocoon 시스템을 통해 오류 유형 세분화, 각 오류에 대해 통계기반 탐지와 LLM기반 의미 분석, 수정의 단계를 거치고 중간 추론 과정에서 사람이 검토하는 human-in-the loop 구조를 사용한 논문 최종 정제는 SQL 쿼리를 통해 수행함으로써 LLM이 갖는 전처리의 유연성과 재현성, 추적성, 설명가능성을 동시에 확보했음
-
Jellyfish: A Large Language Model for Data Preprocessing(Zhang et al., 2024)
- 데이터 전처리를 위해 instruction tuning을 했다는데, instruction dataset을 가지고 fine-tuning을 했다는 것 같음. 데이터 전처리와 관련된 선행 연구 부분이 탄탄함
-
Retrieval-Augmented Generation with Graphs (GraphRAG) (Han et al., 2025)
-
Graph retrieval-augmented generation for large language models: A survey(Procko, T. T., & Ochoa, O., 2024)
-
Rag vs. graphrag: A systematic evaluation and key insights(an, H., Shomer, H., Wang, Y., Lei, Y., Guo, K., Hua, Z., ... & Tang, J., 2025)
- (RAG vs. GraphRAG) RAG와 GraphRAG를 체계적/정량적으로 비교하였으며, 이때 GraphRAG를 전통적 KG 기반의 GraphRAG와 그래프 커뮤니티 구조와 계층적요약을 활용하는 방식의 GraphRAG 계열로 구분하여 분석했음. 실험 결과, KG 기반 방식은 구조적 명확성이 있으나 정보 누락 시 성능 저하가 발생하는 반면, 커뮤니티 기반 GraphRAG는 전역 문맥, 개념적 연결성을 파악하고 복합 추론(multi-hop reasoning)을 수행하는데 특히 강점을 보였음. 반면, 세부 문장 단위 정보 회수나 단일 hop 질의에서는 기존 RAG가 더 뛰어났다. 결론적으로, 그래프 기반 접근은 RAG를 대체하는 기술이 아니라, RAG가 놓치기 쉬운 관계 정보나 전역 요약, 추론 능력을 보완하는 기술이며, 질의 유형에 따라 RAG와 GraphRAG을 선택하거나 통합하는 하이브리드 전략을 취할 수 있음
-
Graph retrieval-augmented generation: A survey(Peng, B., Zhu, Y., Liu, Y., Bo, X., Shi, H., Hong, C., ... & Tang, S.,2024)
- Graph RAG와 관련된 서베이 논문. 구축된 지식그래프를 기반으로 적절한 정보를 검색하기 위한 구체적 전략은 크게 세 가지 범주로 구분함.