정형화된 데이터, RDBMS를 HDFS로 쉽게 이관할 수 있는 Ecosystem.
간단한 CLI로 대량의 정형화된 데이터를 HDFS로 import하거나 HDFS에서 정제/분석한 데이터를 RDBMS로 export하는 대표적 SQL-To-Hadoop Ecosystem
RDBMS -> HDFS(Import), HDFS -> RDBMS(Export)
RDBMS Table, Query 조건에 따른 데이터를 HDFS로 이관 (Import)
HDFS로 이관한 데이터를 분석/정제 작업후 RDBMS로 이관 (export)
Oracle, Postgres, MySQL,MS-SQL 등 JDBC 연결 가능한 Database는 Sqoop사용 가능
옵션을 통해 데이터 이관 시 (Hive/HBase Table)로 바로 생성하여 조회 가능
데이터를 구분하는 값(Primary Key)가 명확할 경우 최적화된 병렬분산 자동 수행
Sqoop import Architecture
!