AWS Glue는 완전 관리형 ETL(추출, 변환 및 로드) 서비스로, 간단하게 여러 데이터 스토어 및 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동한다.
AWS Glue는 서버리스이므로 설정하거나 관리할 인프라가 없다.
데이터를 지속적으로 저장하기 위한 저장소(Amazon S3 버킷 및 관계형 데이터베이스)
프로세스 또는 변환에 대한 입력(input)으로 사용되는 데이터 저장소
프로세스 또는 변환이 쓰는(write) 데이터 저장소
데이터 스토어(소스 또는 대상)에 연결하는 프로그램은 Classifier의 우선 순위 지정 목록을 통해 데이터의 스키마를 결정한 다음 AWS Glue Data Catalog에 메타데이터 테이블을 생성한다.
데이터 스키마를 결정
일반 파일 형식(CSV, JSON, AVRO, XML 등)에 대한 분류자(Classifier)
Glue의 영구적 메타데이터 스토어
테이블 정의, 작업 정의 및 기타 관리 정보를 포함하여 AWS Glue 환경을 관리합니다.
ETL 작업을 수행하는 데 필요한 비즈니스 로직
변환 스크립트(Trasform Script), data sources, and data targets으로 구성
소스에서 데이터를 추출하고 변환하여 대상에 로드하는 코드
PySpark or Scala
AWS Glue를 사용하여 데이터 웨어하우스 또는 데이터 레이크의 스토리지를 조직하고 정리하고 인증한다.
참고 자료