AWS : Glue란

지니박박구리·2021년 7월 6일
3
post-thumbnail

Glue 개념

  • Data Store의 경우
    크롤러를 정의하여 메타데이터 테이블 정의로 AWS Glue Data Catalog를 채운다.
    크롤러를 데이터 스토어로 지정하면 크롤러는 데이터 카탈로그에 테이블 정의를 생성한다.
    테이블 정의에 관련해
    AWS Glue Data Catalog는 다른 필수 메타데이터를 포함하여 ETL 작업을 정의한다.
  • 스크립트를 생성하여 데이터를 변환(Transform)할 수 있다.
    스크립트를 AWS Glue 콘솔이나 API에 제공한다.

AWS Glue는 완전 관리형 ETL(추출, 변환 및 로드) 서비스로, 간단하게 여러 데이터 스토어 및 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동한다.

AWS Glue는 서버리스이므로 설정하거나 관리할 인프라가 없다.



Glue 관련 용어

data store

데이터를 지속적으로 저장하기 위한 저장소(Amazon S3 버킷 및 관계형 데이터베이스)

data store

프로세스 또는 변환에 대한 입력(input)으로 사용되는 데이터 저장소

data target

프로세스 또는 변환이 쓰는(write) 데이터 저장소

크롤러(Crawle)

데이터 스토어(소스 또는 대상)에 연결하는 프로그램은 Classifier의 우선 순위 지정 목록을 통해 데이터의 스키마를 결정한 다음 AWS Glue Data Catalog에 메타데이터 테이블을 생성한다.

분류자(Classifier)

데이터 스키마를 결정
일반 파일 형식(CSV, JSON, AVRO, XML 등)에 대한 분류자(Classifier)

Glue Data Catalog

Glue의 영구적 메타데이터 스토어
테이블 정의, 작업 정의 및 기타 관리 정보를 포함하여 AWS Glue 환경을 관리합니다.

Job

ETL 작업을 수행하는 데 필요한 비즈니스 로직
변환 스크립트(Trasform Script), data sources, and data targets으로 구성

Script

소스에서 데이터를 추출하고 변환하여 대상에 로드하는 코드
PySpark or Scala

Table



Glue는 언제 사용하죠?

AWS Glue를 사용하여 데이터 웨어하우스 또는 데이터 레이크의 스토리지를 조직하고 정리하고 인증한다.

  • AWS 클라우드 데이터를 데이터 스토어로 변환하고 이동할 수 있다.
  • 정기 보고 및 분석을 위해 데이터를 개별 정적 또는 스트리밍 데이터 원본에서 데이터 웨어하우스 또는 데이터 레이크로 로드할 수 있다.
  • 데이터 웨어하우스 또는 데이터 레이크에 데이터를 저장하면 비즈니스의 여러 다른 부분에서 비롯된 정보를 통합하고 의사 결정을 위한 일반 소스를 제공할 수 있다.


참고할 자습서

  1. aws 공식 홈페이지에 제공하는 Glue 실습
    https://docs.aws.amazon.com/ko_kr/glue/latest/ug/tutorial-create-job.html







참고 자료

profile
킹왕짱 DevOps Engineer가 되고 싶습니다

0개의 댓글