AWS Glue

프랭크 IT·2023년 11월 15일

AWS Glue는 클라우드에서 데이터를 쉽게 준비, 정리, 처리할 수 있는 완전관리형 ETL(추출, 변환, 로드) 서비스입니다. AWS Glue를 설정하는 기본적인 단계는 다음과 같습니다:

AWS 계정 및 IAM 역할 설정:
- AWS Glue를 사용하기 위해서는 AWS 계정이 필요합니다.
- AWS Glue 서비스에 필요한 권한을 가진 IAM(Ideentity and Access Management) 역할을 생성합니다. 이 역할은 Glue가 다른 AWS 서비스와 상호작용할 수 있게 해줍니다.
AWS Glue 콘솔에 접속:
- AWS 관리 콘솔에 로그인하고, 서비스 목록에서 'Glue'를 찾아 접속합니다.
Crawler 설정:
- AWS Glue의 'Crawlers' 섹션으로 이동하여 새로운 Crawler를 생성합니다.
- Crawler는 데이터 소스를 스캔하고 메타데이터를 Glue Data Catalog에 저장합니다. 데이터 소스는 S3 버킷, RDS 데이터베이스, DynamoDB 테이블 등이 될 수 있습니다.
- Crawler 설정 과정에서 데이터 소스, IAM 역할, 실행 빈도 등을 지정합니다.
Data Catalog 설정:
- Crawler가 실행되면, AWS Glue Data Catalog에 데이터 소스의 스키마 정보가 저장됩니다.
- 이 메타데이터는 ETL 작업을 정의하고 관리하는 데 사용됩니다.
ETL 작업 정의:
- AWS Glue의 'Jobs' 섹션으로 이동하여 새로운 ETL 작업을 생성합니다.
- ETL 작업에서는 데이터 소스, 변환 로직, 데이터 대상을 정의합니다. AWS Glue는 Python 및 Spark 스크립트를 지원합니다.
- 작업에서 사용할 스크립트를 작성하거나, Glue가 제공하는 스크립트 템플릿을 사용할 수 있습니다.
ETL 작업 실행 및 모니터링:
- 정의된 ETL 작업을 실행합니다. 작업은 수동으로 실행하거나 예약을 통해 자동으로 실행되도록 설정할 수 있습니다.
- 작업 실행 후에는 Glue 콘솔에서 작업의 진행 상황을 모니터링합니다.
추가 설정 (옵션):
- 필요에 따라 Glue DataBrew, Glue Studio 등의 추가 기능을 활용할 수 있습니다. 이들은 데이터 준비 및 시각적 ETL 작업을 쉽게 만들어주는 도구입니다.

AWS Glue를 설정하는 과정에서는 데이터 소스의 위치, 형식, 보안 및 접근 권한 설정 등이 중요한 요소입니다. 또한, Glue의 ETL 작업은 데이터 처리 로직에 따라 맞춤화될 수 있어, 특정 데이터 처리 요구 사항에 따라 다양한 방식으로 설정될 수 있습니다.

프랭크 IT

AWS, Vue, Java, flutter, Mongodb, Python, Git , EKS, Docker, 독서, 영어, 에어로빅, 자전거, 농구, 바둑, 풋살, 복싱, Guitar, 글쓰기, 랭체인

이전 포스트

pre-warming

다음 포스트

AWS Glue

2개의 댓글

happy

2023년 11월 15일

이렇게 유용한 정보를 공유해주셔서 감사합니다.

1개의 답글