AWS Glue란

위정우·2024년 6월 24일

AWS

목록 보기
9/12

AWS Glue란?

AWS Glue는 AWS의 완전 관리형ETL(Extract, Trasnform, Load) 서버리스 서비스로, 효율적인 비용으로 간단하게 여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리 보강, 이동할 수 있다.

  • ETL이란 : Extract(추출), Transform(변환), Load(로드)의 약자로, 데이터를 추출하고 필요한 형식으로 변환한 후, 데이터 웨어하우스 또는 분석 시스템과 같은 시스템으로 로드하는 과정을 의미한다.

  • Data Stores(데이터 스토어) : 데이터를 지속적으로 저장하기 위한 저장소(S3, RDS 등)

  • Crawler(크롤러) : 데이터 스키마를 결정하며, Glue는 CSV, JSON, AVRO, XML 등과 같은 일반 파일 형식에 대한 분류자를 제공한다.

  • Data Catalog : Glue의 영구적 메타데이터 스토어. 테이블 정의, 작업 정의 및 기타 관리 정보를 포함하여 Glue 환경을 관리한다.

  • Job(작업) : ETL 작업을 수행하는 데 필요한 비즈니스 로직으로, 변환 스크립트, 데이터 원본 및 데이터 대상으로 구성된다.

  • Connection(연결) : 특정 데이터 스토어에 연결하는 데 필요한 속성을 포함하는 Data Catalog 객체.

  • Script : 소스에서 데이터를 추출하여 변환하고 대상으로 로드 프로세스를 로드하는 코드이다.(PySpark 또는 Scala)

profile
열심히 하자!

0개의 댓글