AWS Glue

김무땅·2021년 7월 6일
0

AWS

목록 보기
1/1

AWS Glue란??

AWS Glue는 분석을 위해 데이터를 준비하는 시간 소모적인 단계를 자동화하는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다.

  • AWS Glue는 Glue 데이터 카탈로그를 통해 데이터를 자동으로 검색 및 프로파일링하고,
  • ETL 코드를 추천 및 생성하여 소스 데이터를 대상 스키마로 변환하고,
  • 완전관리형 스케일 아웃 Apache Spark 환경에서 ETL 작업을 실행하여 데이터를 대상에 로드합니다.

AWS Glue의 주요 구성 요소

메타데이터 중앙 리포지토리인

  • 데이터 카탈로그,
  • Scala 또는 Python 코드를 자동 생성할 수 있는 ETL 엔진,
  • 그리고 종속성 확인, 작업 모니터링 및 재시도를 처리하는 유연한 스케줄러로 구성됩니다.

AWS Glue 사용목적

AWS Glue는 소유한 데이터의 속성을 검색하고, 데이터를 변환하여 분석용으로 준비하는 데 사용해야 합니다.
Glue는 Amazon S3의 데이터 레이크, Amazon Redshift의 데이터 웨어하우스, AWS에서 실행되는 다양한 데이터베이스에 저장된 정형 및 반정형 데이터를 모두 자동으로 검색할 수 있습니다.
또한, ETL에서 사용할 수 있고 Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum과 같은 서비스에서 쿼리 및 보고하는 데 사용할 수 있는 Glue 데이터 카탈로그를 통해 데이터에 대한 통합된 뷰를 제공합니다.

AWS Glue 데이터 카탈로그란

AWS Glue 데이터 카탈로그는 모든 데이터 자산의 정형 및 운영 메타데이터를 저장하는 중앙 리포지토리입니다.
AWS Glue 데이터 카탈로그는 Apache Hive Metastore와 호환되며, Amazon EMR에서 실행되는 빅 데이터 애플리케이션용 Apache Hive Metastore를 즉시 대체할 수 있습니다.
Glue 데이터 카탈로그에 테이블 정의를 추가하면, 이를 ETL에 사용할 수 있고 Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum에서 쿼리하는 데 바로 사용할 수 있습니다.

AWS Glue 크롤러란

AWS Glue 크롤러는 데이터 스토어에 연결하고, 우선순위가 지정된 분류자 목록을 거치면서 데이터 스키마 및 기타 통계를 추출한 후, 이러한 메타데이터로 Glue 데이터 카탈로그를 채웁니다.
크롤러는 새로운 테이블, 기존 테이블에 새로운 파티션, 새로운 테이블 정의 버전을 자동으로 추가합니다.

출처: https://st-soul.tistory.com/130?category=875713 [Soul의 친절한이야기]

profile
근육도 개발도 점진적 과부하

0개의 댓글