granularity

김동준·2025년 10월 24일

granularity(그래뉼래러티)는 정보 검색(IR)과 데이터 처리에서 세분화 수준 또는 정보 단위의 크기 정도를 의미한다. 즉, 데이터를 얼마나 작고 정밀한 단위로 나누어 다루는지를 나타내는 개념이다[3].

일반적 의미

  • 영어 ‘granular’는 ‘입자가 있는(grainy)’에서 왔으며, granularity는 ‘입자의 세밀도’라는 뜻이다.
  • 추상적 의미로는 ‘정보나 분석, 처리 단위가 얼마나 세밀하게 나누어졌는가’를 나타낸다.

예시:

  • 높은 granularity → 세분화가 많이 된 상태 (예: 문장 단위, 단어 단위 검색)
  • 낮은 granularity → 덜 세밀한 상태 (예: 문서 단위, 단락 단위 검색)

정보 검색(IR)에서의 의미

  • Retrieval Granularity는 검색 인덱스의 단위를 얼마나 세밀하게 설정할지를 결정하는 요소다.
    예를 들어, 위키피디아 문서를 다음 세 수준으로 나눌 수 있다:
    • 문서(document)-단위 검색 → 낮은 granularity
    • 단락(passage)-단위 검색 → 중간 granularity
    • 문장(sentence) 또는 절(proposition)-단위 검색 → 높은 granularity
  • 연구(EMNLP 2024 기준)에 따르면, 질문응답(QA) 시스템에서 문장·절 단위의 세밀한 granularity가 희귀 주제(long-tail entity)에 대해 더 높은 정확도를 보이는 것으로 보고되었다[3].

핵심 요약

구분낮은 granularity높은 granularity
단위 예시문서(Document), 전체 페이지문장(Sentence), 절(Proposition)
특징많은 문맥·배경 포함, 불필요 정보 섞임문맥 짧지만 정확한 대응 가능
장단점포괄성 ↑, 잡음 ↑정밀성 ↑, 연결 정보 ↓[3]

결론적으로, granularity는 정보 단위를 얼마나 세밀하게 나누어 표현·검색·분석할지를 나타내는 척도로, 정보 검색 시스템의 효율성과 정확도를 조절하는 핵심 개념이다.

출처
[1] How Granularity and Order Drive Code Completion Quality https://arxiv.org/html/2510.06606v1
[2] BM25 and Its Role in Document Relevance Scoring https://www.sourcely.net/resources/bm25-and-its-role-in-document-relevance-scoring
[3] Dense XRetrieval: What Retrieval Granularity Should We ... https://aclanthology.org/2024.emnlp-main.845.pdf
[4] BM25란 무엇인가 https://hmdev.vercel.app/BM25%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80
[5] BM25 Retriever | LlamaIndex Python Documentation https://developers.llamaindex.ai/python/examples/retrievers/bm25_retriever/
[6] Cross-Encoder Rediscovers a Semantic Variant of BM25 https://arxiv.org/html/2502.04645v1
[7][논문 리뷰] Semantic Search for Information Retrieval https://www.themoonlight.io/ko/review/semantic-search-for-information-retrieval
[8] Okapi BM25 https://en.wikipedia.org/wiki/Okapi_BM25
[9] A machine learning approach for improved BM25 retrieval https://dl.acm.org/doi/10.1145/1645953.1646237

profile
Story Engineer

0개의 댓글