데이터 파이프라인 구축

스르륵·2022년 5월 27일

데이터파이프라인

목록 보기

1/10

파이프라인 구축 연습을 위해 수집부터 Elasticsearch 적재까지의 파이프라인을 만들어보았다.
로그수집 - kakfa - logstash - elasticsearch 로 이루어진 파이프라인 구성이다.
3개의 오픈스택 vm을 만들고 각각 kafka, logstash, elasticsearch 를 설치했다. 그리고 rsyslog는 kafka vm에서, collectd는 logstash vm에 설치하여 로그를 수집했다.

로그 수집
rsyslog와 collectd를 사용해 로그를 수집한다. 다만 파이프라인 구축이 목적이므로 rsyslog와 collectd의 수집 관련 설정은 따로 변경하지 않았다. 기본 설정을 그대로 사용했고 collectd의 kafka output 모듈만 추가했다.
kafka
카프카 사용법과 기초적인 데이터 파이프라인 구축을 위한 연습이기 때문에 싱글노드로 클러스터를 구성했다. 각 수집기의 이름과 동일한 토픽에 데이터를 저장하도록 했다.
logstash
카프카의 컨슈머로 logstash를 사용했고 들어오는 토픽의 이름에 맞게 필드를 추가하여 elasticsearch로 보내 저장하도록 했다.
elasticsearch
하나의 인덱스에 두 가지 수집기에서 들어오는 데이터를 저장했다. topicName 이라는 필드명을 통해 어떤 수집기의 로그인지 구별하도록 했다.

다음 글 부터는 각 단계에서 사용한 소프트웨어의 설치와 설정들에 대해 적도록 하겠다.

스르륵

기록하는 블로그

다음 포스트

데이터 파이프라인 구축

데이터파이프라인

데이터 파이프라인 설치 (1) - Kafka

0개의 댓글