[빅데이터]Hive란

건너별·2021년 11월 9일
0

BigData

목록 보기
5/7

Hive란

  • 하둡에서 정형화된 데이터 처리를 위한 인프라
  • SQL과 유사한 방식으로 접근성을 높였다!
  • 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션

주요 역할

  • 아파치 HDFS나 HBase 와 같은 데이터 저장 시스템에 저장되어 있는 대용량 데이터 집합 분석
  • HiveQL이라고 불리는 SQL같은 언어를 제공하며 맵리듀스의 모든 기능 지원
  • 쿼리를 빠르게 하기 위하여 비트맵 인덱스를 포함하여 인덱스 기능 제공
  • 하둡에서 동작하는 데이터 웨어하우스 인프라 구조로서 데이터 요약, 질의 및 분석 기능 제공

주요 구성요소

  • CLI : 사용자가 Hive 쿼리를 입력하고 실행할 수 있는 인터페이스
  • JDBC/ODBC Driver : 하이브 쿼리를 다양한 데이터베이스와 연결하기 위한 드라이버 제공
  • Query Engine
    - 사용자가 입력한 하이브 쿼리를 분석하여 실행 계획 수립
    - 하이브 QL을 맵리듀스 코드로 변환 및 실행
  • MetaStore
    - 하이브에서 사용하는 테이블의 스키마 정보를 저장 및 관리
    • 기본적으로 DerBy DB가 사용되나 다른 언어로 변환 가능 (MySQL, PostGRESQL)

** Query 란 : 데이터베이스에 정보를 요청하는 것

Structure


[출처 : https://medium.com/plumbersofdatascience/hive-architecture-in-depth-ba44e8946cbc]

Reference

profile
romantic ai developer

0개의 댓글