Bigdata, Hive

Jeonghak Cho·2025년 3월 31일

Bigdata

목록 보기

10/30

📗HIVE 소개

Hive는 Apache Hadoop 위에서 동작하는 데이터 웨어하우스 시스템으로, 대용량 데이터 분석을 위해 SQL과 유사한 HiveQL(Hive Query Language)을 제공하는 도구이다. Hive는 주로 배치 처리와 데이터 웨어하우스 쿼리에 사용되며, Hadoop의 MapReduce, Tez, Spark 같은 실행 엔진을 백엔드로 활용할 수 있다.
Hive는 기존 Hadoop 환경에서 대규모 데이터 분석을 위해 강력한 도구였지만, 속도 및 실시간 분석의 한계 때문에 요즘은 Trino, Iceberg, Delta Lake 같은 기술이 더 많이 활용되고 있다.

🏳️‍🌈 [궁금한점]

HIVE를 어디에 사용할까
RDBMS 와 차이점은 무엇일까
왜 차세대 기술 ( ICEBERG, DELTA LAKE ) 로 넘어가고 있을까

🔗[목차]

📗HIVE 소개
🔗[목차]
Hive의 주요 특징
Hive와 RDBMS 비교
- Hive 사용 사례
- Hive를 대체할 수 있는 최신 기술들
최신 추세 및 활용 현황
Hive 대체 가능한 기술들
(참고) AI 로 만든 그림

Hive의 주요 특징

SQL 기반 쿼리

HiveQL을 사용하여 관계형 데이터베이스와 유사하게 데이터를 다룰 수 있음.
표준 SQL과 비슷하지만 일부 차이가 있음 (예: INSERT INTO보다 INSERT OVERWRITE를 주로 사용).

대용량 데이터 처리

페타바이트(PB) 수준의 데이터를 효율적으로 처리할 수 있음.
주로 배치 쿼리(Batch Query) 용도로 사용됨.

다양한 저장 포맷 지원

CSV, ORC, Parquet, Avro 등 다양한 포맷을 지원.
ORC와 Parquet은 컬럼형 저장 방식으로, 성능 최적화에 유리.

확장성 및 분산 처리

Hadoop과 통합되어 분산된 저장소(HDFS)와 병렬 처리를 활용.
MapReduce, Tez, Spark를 실행 엔진으로 사용할 수 있음.

스키마 온 리드(Schema on Read)

데이터를 로드할 때가 아니라 쿼리 실행 시점에 스키마를 적용.
RDBMS와 달리, 구조화되지 않은 데이터에도 유연하게 대응 가능.

Hive와 RDBMS 비교

특성	Hive	RDBMS
쿼리 언어	HiveQL (SQL 유사)	SQL
실행 방식	배치 처리 (느림)	실시간 처리 (빠름)
트랜잭션 지원	제한적 (ACID 지원 가능)	완전한 ACID 지원
저장 방식	HDFS 기반 분산 저장	로컬 디스크 저장
스키마 적용	Schema on Read	Schema on Write

Hive 사용 사례

데이터 레이크에서 대규모 데이터 분석
로그 및 이벤트 데이터 처리
BI 및 데이터 웨어하우스 구축
ETL (Extract, Transform, Load) 작업

Hive를 대체할 수 있는 최신 기술들

Trino (PrestoSQL): 실시간 분석을 위해 더 빠른 SQL 쿼리 엔진.
Apache Iceberg: ACID 트랜잭션을 지원하는 데이터 레이크 테이블 포맷.
Delta Lake: Apache Spark 기반의 트랜잭션 지원 데이터 레이크.

Hive 대체 가능한 기술들

기술	주요 특징	Hive 대체 가능성
Trino (PrestoSQL)	빠른 SQL 쿼리, 다중 데이터 소스 지원	고속 분석 엔진으로 대체 가능
Apache Iceberg	ACID 트랜잭션, 최적화된 테이블 관리	Hive 테이블 대체 가능
Delta Lake	Spark 기반, ACID 지원, Time Travel	데이터 레이크용 대체 가능
Apache Hudi	실시간 데이터 업데이트, Change Data Capture	실시간 데이터 레이크 대체 가능
Snowflake / BigQuery	클라우드 기반, 서버리스, 실시간 분석	완전한 대체 가능 (클라우드 환경)