[230418] Elastic Stack 1일차 리뷰 내용

뜨개발자·2023년 4월 19일

ESE Elastic Stack TIL elastic

TIL

목록 보기

60/75

Elastic Search는 검색, 분석을 위한 엔진

기본 개념

맨 꼭대기에 있는 cluster, 그 아래로 각 실행흐름인 node, 그 아래 RDB의 테이블과 비슷한 개념으로 생각할 수 있는 index가 존재

클러스터는 여러 개가 존재할 수 있으며, 각 클러스터가 논리적으로 분리됨
클러스터끼리 데이터를 주고 받는 식으로 통신이 가능

클러스터 아래에 노드는 여러 개가 달려있을 수 있음
노드는 하나의 Instance라고 부름

노드 아래에 존재하는 개념인 인덱스는 테이블과 유사하다고 볼 수 있음
DB에는 Insert를 한다면, Index에는 Indexing을 함
DB의 row는 Index의 document

엘라스틱의 데이터 구분

Static data

증량은 적고, 그에 비해 업데이트가 잦은 데이터
코드성 테이블
정형화된 데이터에 적합

Time series data

업데이트는 거의 없지만, 증량이 빠른 데이터
log와 같이 insert가 계속 되는 것

Query option

Lucene(루씬)
Elastic Search의 기반이 되는 검색 엔진
Query DSL
Elastick Search에서 가장 유연하게 사용할 수 있는 query

Keyword vs text

Text

인덱싱이 발생하는, 필드의 데이터 타입
원본 문자열을 가공하기 때문에 검색이 필요한 경우 적합

Keyword

인덱싱이 발생하지 않는 원본 문자열
aggregation을 위해 사용하는 경우가 많음

mapping

RDB에서 테이블을 정의하는 것과 같은 동작
mapping은 index를 정의함 = index의 스키마를 정하는 것이 mapping

dynamic templates

정의되지 않은 필드에 document를 인덱싱하려고 하면 Elastic Search는 동적으로 매핑을 진행해줌 (그다지 권장되지는 않음)
이 때, 동적으로 매핑이 발생하더라도 그에 대한 어느 정도의 기반을 마련해 주는 것이 dynamic templates
정의하지 않아도 dynamic mapping은 발생하지만, 정의된 틀에 맞는 경우에는 어느 정도 대비할 수 있게 됨

Score

score : 조건에 맞는 결과들에 점수를 매겨 유사도 혹은 유용도를 수치화한 것
Elastic Search는 default로 BM25 알고리즘을 사용하여 score를 매김
score의 3요소
- TF(term frequency)
  - 검색한 단어가 나타나는 빈도가 높다면 점수를 높게 계산
  - 하나의 문서 내에서 적용하는 규칙
- IDF(inverse document frequency)
  - 검색한 단어가 나타나는 빈도가 높다면 점수를 낮게 계산
  - 여러 개의 문서에 대해서 적용하는 규칙
- field length
  - 더 짧은 필드에 대해 더 높은 점수를 부여