AWS Glue 란

SUSU·2023년 11월 25일
0
post-thumbnail

AWS Glue는 완전관리형 ETL (Extract, Transform, Load) 서비스입니다. AWS Glue를 사용하면 데이터 웨어하우스나 데이터 레이크로 데이터를 이동하고 변환할 수 있습니다. ETL은 데이터를 추출하고 변환한 뒤 다른 위치에 적재하는 프로세스를 나타내는데, 이는 데이터를 분석 및 쿼리하기 적합한 형태로 가공하는 데 사용됩니다.
데이터 엔지니어링 및 데이터 과학 작업을 간소화하고, ETL 프로세스를 효율적으로 관리할 수 있는 도구로서 널리 사용되고 있습니다.

AWS Glue의 주요 특징과 기능은 다음과 같습니다:

  • 데이터 카탈로그(Data Catalog): Glue는 데이터 카탈로그를 제공하여 데이터 웨어하우스나 데이터 레이크에서 데이터 스키마를 검색하고 관리할 수 있습니다. 이를 통해 데이터의 메타데이터를 중앙 집중화하고 관리할 수 있습니다.

  • ETL 작업(ETL Jobs): Glue는 시각적으로 ETL 작업을 디자인하고 구성할 수 있는 시각적 인터페이스를 제공합니다. 이를 통해 데이터 추출, 변환, 적재 프로세스를 간편하게 구축할 수 있습니다.

  • 자동 스키마 탐지 및 추출: Glue는 데이터를 샘플링하고 스키마를 자동으로 탐지하여 데이터 카탈로그에 저장할 수 있습니다. 이는 데이터의 구조를 이해하고 분류하는 데 도움이 됩니다.

  • 서버리스 아키텍처: AWS Glue는 서버리스 아키텍처를 기반으로 하므로 사용자는 인프라스트럭처를 관리하지 않고도 ETL 작업을 수행할 수 있습니다.

  • 데이터 분류 및 정제: Glue는 데이터를 정제하고 변환하여 분석이나 머신 러닝에 적합한 형식으로 변환할 수 있습니다.

  • 스케줄링 및 모니터링: Glue는 ETL 작업을 예약하고 모니터링할 수 있는 기능을 제공하여 자동화된 데이터 흐름을 관리할 수 있습니다.

  • 다양한 데이터 소스 및 대상: Glue는 다양한 데이터 소스 및 대상을 지원하며, 데이터베이스, 데이터 웨어하우스, S3 등과 같은 다양한 위치에서 데이터를 추출하고 적재할 수 있습니다.

profile
기록용

0개의 댓글