# GLUE

AWS Glue란 무엇인가?
AWS Glue AWS의 Serverless ETL 서비스로 아래와 같은 기능 제공한다. 데이터 카탈로그 AWS Glue Data Catalog는 데이터 소스(S3 등) 및 대상의 메타데이터를 대상으로 검색 기능을 제공 이는 주로 S3나 다른 AWS 서비스 상의

Glue Crawler 생성시 Lake Formation credentials 설정하기
Lake Formation 접근 제어 설정에 따라 Glue Crawler 생성하기

[AWS SAA] Athena, Redshift, Opensearch, EMR, QuickSight, Glue (Data & Analytics 데이터, 분석)
쿼리 서비스표준 SQL을 사용하여 S3 데이터를 간편하게 분석CSV, JSON 또는 컬럼 방식 데이터 형식(apache Parquet, ORC)에 사용.데이터를 쉽게 시각화할 QuickSight과 사용데이터 웨어하우스인벤토리 시스템, 금융 시스템, 소매 판매 시스템 등

[AWS Glue]CDC
문제 상황S3의 데이터를 우리의 Data Mart인 Postgresql로 옮기는 ETL job을 run하면 중복 데이터가 계속 쌓인다. 예를 들어, 어제 100줄짜리 user테이블이 담긴 parquet 파일이 S3에 담겨있었고, 이걸 postgresql로 옮기는 ETL

[Data Engineering] AWS Glue와 AWS RDS 연결 (PostgreSQL)
AWS Glue는 완전관리형 ETL(Extract, Transform, Load) 서비스로, 데이터 웨어하우스 또는 데이터 레이크에서 데이터 추출, 변환 및 로딩 작업을 자동화해주는 도구입니다. Glue는 스키마 추론, 데이터 카탈로그 생성, 스케일링 가능한 작업 실행

[AWS] Glue - workflow
glue workflow 생성AWS Glue Workflows - 모든 구성 요소의 실행과 모니터링을 관리합니다경로 AWS Glue → 워크플로 → 워크플로 추가워커플로 이름 - data-workflow워커플로 추가 클릭5-2. 트리거 추가트리거 추가Add new 클릭

[AWS] Glue - job
glue job 생성 (데이터 변환)경로 AWS Glue Studio → JobsCreate Job - Visual with a source and target ( 프로세스 또는 변환이 쓰는 데이터 저장소 )Create 클릭제목 - skills-glue-job (과제지

[AWS] Glue - crawler
Glue crawler 생성Glue crawler - 모든 종류의 리포지토리(ex) - s3)에서 데이터를 스캔하고 분류하며, 스키마 정보를 추출하고, AWS Glue Data Catalog에서 자동적으로 메타데이터를 저장하는 크롤러를 설정할 수 있습니다스키마 - 데이

[AWS] Glue - Databases+table
Glue 개념 사이트 - https://velog.io/@ginee_park/AWS-Glue란Glue Databasess - 중앙 메타데이터 저장소라고 하는 데이터베이스를 사용한다.이 말은 즉, 모든 데이터를 한 곳에 모아 ETL 작업을 할 수 있도록 제공한다

[2023 기능대회 준비] 23. AWS Glue-Crawler 실습
aws glue로 들어와 Database 페이지로 이동하여 add database 를 클릭해준다.이름만 대충 지어주고 생성버튼을 눌러주자.이후 사용할 크롤러를 생성해주도록하자.이름을 알잘딱 지어주고데이터 소스를 선택해주자. 우리는 저번 실습떄 DataStream과 fi

[2023 기능대회 준비] 13. AWS Glue란?
Glue를 알아보기 전에 몇 가지 개념을 먼저 알아보자.ETL은 추출, 변환, 로드를 나타내며(Extract, Transform, Load) 조직에서 여러 시스템의 데이터를 단일 데이터베이스, 데이터 저장소, 데이터 웨어하우스 또는 데이터 레이크에 결합하기 위해 일반적
AWS 분석
Athena는 표준 SQL을 사용해 S3에 저장된 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서비스로, 실행한 쿼리에 대해서만 비용 지불(서버리스)EMR은 종적 확장 가능 EC2 인스턴스 전반에 걸쳐 대량의 데이터를 쉽고 빠르게 처리할 수 있는 관리형 하둡 프레임워

AWS Certified Cloud Practitioner CLF-C01 Redshift, EMR, Athena, QuickSight, DocumentDB, Neptune, QLDB, Managed Blockchain, DMS, Glue
Database and Analytics

분석 Part
Amazon Athena Amazon OpenSearch Service Amazon EMR AWS Glue Amazon Kinesis, Kinesis Data Streams, Firehose, Analytics Amazon QuickSight

Databases - Glue, Neptune
관리형 ETL(Extract + Transform + Load) 서비스이다.분석을 위해 데이터를 추출하고 변형하는 데 사용된다.서버리스 서비스이다.데이터의 카탈로그로, 메타데이터이다. \- 메타데이터는 데이터에 대한 정보를 가지고 있다.Glue 크롤러가 데이터베이스에

GLUE - 이것은 "풀"이 아니다 (자연어 이해 벤치마크를 파헤쳐 보자!)
GLUE는 자연어 이해 모델에서 범용적으로 사용되는 성능지표이다. GLUE를 파헤쳐 보자!

[NLP] Natural Language Inference
인공지능 분야 공부를 하며 NLP에 대한 관심이 생겨 원티드 프리온보딩 AI/ML 에 참가하게 되었습니다. Natural Language Inference 문제 정의 task가 해결하고자 하는 문제가 무엇인가? hypoth

[AWS] 다양한 서비스 한줄 요약(ElasticSearch, Athena, glue,...)
실시간으로 데이터 스트림을 수집, 처리, 분석해주는 서비스완전 관리형 ETL 서비스. 데이터 분류, 정리, 보강, 이동오픈소스 분산 검색 엔진. 방대한 양의 데이터를 신속하게, 거의 실시간( NRT, Near Real Time )으로 저장, 검색, 분석표준 SQL을 이