시계열 데이터베이스(TSDB, Time Series Database)란?

황수홍·2024년 8월 12일

시계열 데이터란?

시계열 데이터(Time-series data)란, 시간 순서에 따라 관측된 데이터를 의미한다. 주식 가격, 기상 정보, 웹사이트 등의 사용자 트래픽 등의 다양한 분야에서 사용된다. 시계열 데이터의 주요 특징은 시간적 순서를 따르는 점과 연속성이 있다. 시간에 따라 변하는 패턴을 분석하는 데 사용된다.

시계열 데이터베이스란?

시계열 데이터베이스(TSDB, Time Series Database)란 시계열 데이터 즉, 시간(time)과 값(value)이 한 쌍을 이루는 데이터를 시간에 따라 순차적으로 저장하고 서비스하는 시스템을 말한다.
즉 해당 값이 언제 기록됐는지를 알 수 있다는 것이다.

TSDB의 종류에는 InfluxDB, Kdb+, Graphite, Prometheus, OpenTSDB, 한국의 MachBase 등이 있는데 이 중 InfluxDB를 가장 많이 사용하며 처음 사용하기에 익히기 수월한 InfluxDB를 다뤄볼 것을 추천한다.

왜 사용할까?

먼저 아래 그래프를 보자.
아래 그래프는 2020년기준으로 근 2년동안의 DBMS에 대한 추세를 보여주고 있는 그래프이다.

한눈에 봐도 TSDB에 대한 관심도가 높아지고 있는 추세인 것을 확인할 수 있다.
약 2018년도 10월경부터 TSDB에 대한 관심도가 높아지기 시작했는데 시계열 데이터에 대한 TSDB의 처리 능력도 함께 상승하였다.

이런 동향에 가장 많은 영향을 끼친 것이 스마트 팩토리, 빅데이터와 같은 것들이다.
최근에 산업이 발전하고 데이터에 대한 가치가 높아지면서 데이터를 가공하고 다루고 처리하는 기술도 중요해지고 있다.

시계열 데이터들의 특징이자 키워드로 뽑을 수 있는 단어는 "실시간 데이터"라는 것이다.
TSDB, 시계열 데이터베이스는 이 실시간 데이터를 처리하는데 용이하다.

실시간으로 수많은 데이터들을 처리하기엔 기존 관계형 데이터베이스(RDBMS)로는 무리가 있다.
관계형 데이터베이스로 시계열 데이터를 저장하려면 시간과 값을 각각 따로 저장하여 이를 연관시켜야한다.
게다가 하나의 시간에 여러 종류의 데이터가 입력될 때, 데이터를 삭제할 때 굉장히 비효율적이고 느리게 처리된다.

특징 및 이점

  1. 실시간 변화 추적에 용이하다.
  • 과거와 현재의 데이터들을 토대로 미래의 데이터를 예측하고 이에 따른 판단을 할 수 있다.
    실제로 인공지능, 데이터 분석 분야와 결합하여 굉장히 많이 사용되고 있다.
  1. 오래된 데이터를 삭제하기 편리하다.
  2. 데이터 입출력이 빠르다.
    시계열은 데이터를 빠르게 처리하기 위해 구조적으로 관계형과 다른 구조를 지닌다.
profile
대한민국 최고의 개발자(희망)

0개의 댓글