일반적인 빅데이터 파이프라인은
데이터 수집과 저장 -> 이벤트 처리 -> 데이터 처리 -> 데이터 분석이다.
로그스태시 키바나(시각화 ui) 그래서 엘라스틱서치(검색), 로그스태시(오픈소스 데이터 수집도그), 키바나를 합친 엘라스틱 스택을 개발함.
엘라스틱 스택은
시각화 -키바나
데이터 저장& 검색엔진 - 엘라스틱 서치
데이터 수집 - 비츠, 로그 스태시
검색 엔진은 내부적으로 각 도큐먼트를 인덱싱하고 빠르게 검색하는데 사용되는 기술
모든 레코드를 json 도큐먼트 형태로 입력 및 관리
쿼리한 결과에 대해 일치하는 원본 도큐먼트를 반환
연관도에 따른 정렬 (스코어링)
분산 시스템으로서의 엘라스틱 서치는 복수의 루씬 인스턴스를 병렬로 배치하고 분산 처리해 검색 속도를 무한히 확장할 수 있게 했다. 모든 통신을 rest api를 이용하도록 만들었다.
단점은 시스템 리소스를 많이 사용한다.
엘라스틱 서치의 시각화 도구
가장 중요한 도구는 대시보드
다양한 소스로부터 로그를 수집할 수 있다.
로그스태시는 데이터를 동적으로 수집, 변환, 전송하는 구조로 되어있다.
경량 수집기
흔히 비츠에서 각 서비스 호스트의 정보를 수집하며, 로그스태시에서 이를 취합하고 가공해 엘라스틱 서치로 전송하는 형태의 아키텍처가 많이 사용된다.