Lucene

최강일·2022년 5월 5일

Elasticsearch

목록 보기

2/5

자바 기반 IR 오픈소스 라이브러리. 색인과 검색이라는 핵심 기능 지원
우리는 Text와 Analyzer를 Lucene에 제시하면 Lucene이 Index를 구성 -> 효율적인 Full Text검색

IR : Information retrieval, 고성능 정보 검색

역색인 : <Term,Doc 정보> 형태
Document : 색인,검색에 사용되는 가장 기본적인 단위. RDB의 row
Term : 텍스트를 쪼개고 불필요한 조사등을 거른 검색의 기본 단위
색인 > 도큐먼트 > 필드 > 텀

flush : 색인 대상 도큐먼트를 버퍼링 후, 물리적인 세그먼트로 옮기는 것
commit 이후웨 검색 가능

숫자나 범위 검색, 집계, 그루핑 검색에 사용되는 구조
JVM Heap 메모리 사용이 아닌 os의 파일 시스템 캐시 사용

루씬의 색인은 물리적으로 세그먼트로 구성. 색인은 하나 이상의 세그먼트의 집합.
세그먼트 안에는 다수의 도큐먼트가 저장

특징

불변
- 신규 도큐먼트 추가, 기존 도큐먼트 변경은 직접 수정하는게 아니라 새로운 세그먼트를 생성해 수정사항을 반영하고, 기존 세그먼트를 삭제한다.
  삭제 또한 삭제할 도큐먼트로 표시하고 검색에 노출되지 않게 한다. 추가,수정,삭제가 지속적으로 일어난다면 용량,세그먼트 수가 늘어나 성능이 악화
주기적으로 병합
- 세그먼트를 주기적으로 병합하여 세그먼트 수를 줄이고, 삭제 표시한 도큐먼트는 병합 시 실제로 삭제. 병합으로 세그먼트의 크기는 점점 커짐
- 많은 디스크 I/O와 리소스들을 많이 소모함으로 적절한 세그먼트 병합 정책이 필요

merge 팁