granularity(그래뉼래러티)는 정보 검색(IR)과 데이터 처리에서 세분화 수준 또는 정보 단위의 크기 정도를 의미한다. 즉, 데이터를 얼마나 작고 정밀한 단위로 나누어 다루는지를 나타내는 개념이다[3].
예시:
| 구분 | 낮은 granularity | 높은 granularity |
|---|---|---|
| 단위 예시 | 문서(Document), 전체 페이지 | 문장(Sentence), 절(Proposition) |
| 특징 | 많은 문맥·배경 포함, 불필요 정보 섞임 | 문맥 짧지만 정확한 대응 가능 |
| 장단점 | 포괄성 ↑, 잡음 ↑ | 정밀성 ↑, 연결 정보 ↓[3] |
결론적으로, granularity는 정보 단위를 얼마나 세밀하게 나누어 표현·검색·분석할지를 나타내는 척도로, 정보 검색 시스템의 효율성과 정확도를 조절하는 핵심 개념이다.
출처
[1] How Granularity and Order Drive Code Completion Quality https://arxiv.org/html/2510.06606v1
[2] BM25 and Its Role in Document Relevance Scoring https://www.sourcely.net/resources/bm25-and-its-role-in-document-relevance-scoring
[3] Dense XRetrieval: What Retrieval Granularity Should We ... https://aclanthology.org/2024.emnlp-main.845.pdf
[4] BM25란 무엇인가 https://hmdev.vercel.app/BM25%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80
[5] BM25 Retriever | LlamaIndex Python Documentation https://developers.llamaindex.ai/python/examples/retrievers/bm25_retriever/
[6] Cross-Encoder Rediscovers a Semantic Variant of BM25 https://arxiv.org/html/2502.04645v1
[7][논문 리뷰] Semantic Search for Information Retrieval https://www.themoonlight.io/ko/review/semantic-search-for-information-retrieval
[8] Okapi BM25 https://en.wikipedia.org/wiki/Okapi_BM25
[9] A machine learning approach for improved BM25 retrieval https://dl.acm.org/doi/10.1145/1645953.1646237