Sqoop

YU NA Joe·2022년 2월 11일
0

Sqoop

정형화된 데이터, RDBMS를 HDFS로 쉽게 이관할 수 있는 Ecosystem.
간단한 CLI로 대량의 정형화된 데이터를 HDFS로 import하거나 HDFS에서 정제/분석한 데이터를 RDBMS로 export하는 대표적 SQL-To-Hadoop Ecosystem

RDBMS -> HDFS(Import), HDFS -> RDBMS(Export)

특징

RDBMS Table, Query 조건에 따른 데이터를 HDFS로 이관 (Import)
HDFS로 이관한 데이터를 분석/정제 작업후 RDBMS로 이관 (export)
Oracle, Postgres, MySQL,MS-SQL 등 JDBC 연결 가능한 Database는 Sqoop사용 가능
옵션을 통해 데이터 이관 시 (Hive/HBase Table)로 바로 생성하여 조회 가능
데이터를 구분하는 값(Primary Key)가 명확할 경우 최적화된 병렬분산 자동 수행

병렬 분산 처리(MapReduce)

Sqoop import(RDBMS -> HDFS) (1)

  • RDBMS -> HDFS 이관(import) 시 특정 조건(query)을 걸어 원하는 데이터만 이관

Sqoop import(RDBMS -> HDFS) (2)

  • RDBMS에 적재되어 있는 데이터(table)를 HDFS로 이관(Import)
  • 옵션을 통해 데이터를 Hive, Hbase Table로 바로 생성해서 조회 가능
  • HDFS에 적재되어 있는 데이터 분석/정제(Hive,Spark)
  • RDBMS로 이관(Export)

Sqoop import Architecture
!

Sqoop Export(HDFS -> RDBMS)

  • HDFS에 적재되어 있는 데이터 분석/정제(Hive, Spark..)

Sqoop export Architecture

0개의 댓글