# etl

58개의 포스트
post-thumbnail

[프로그래머스 데브코스] 데이터 엔지니어링 8주차 월요일 TIL

ETL, ELT, Redshift, 데이터분석/처리용 고급 SQL, BI 대시보드 (1) - 데이터 팀의 역할, 조직 구성원, 데이터 웨어하우스와 ETL/ELT

2023년 11월 27일
·
0개의 댓글
·
post-thumbnail

3.데이터웨어하우스란?

데이터 웨어하우스 하나만 알아보려고 했는데 정신 차리니 3개를 알아보게 된..

2023년 9월 24일
·
0개의 댓글
·

데이터인프라 횡전개 후기

인티그레이션은 보건의료직군 대상으로 커뮤니티 서비스를 제공하고 있습니다. 메디스트림은 한의사(한의대생)을 대상으로한 종합 전문직 커뮤니티 플랫폼 서비스이고 모어덴, 치즈톡은 각각 치과의사(치대생)과 치과위생사(치위생대생)을 대상으로 한 서비스입니다.인티그레이션의 모든

2023년 9월 14일
·
3개의 댓글
·
post-thumbnail

DAG 개념, 실습 / Airflow로 DAG 관리하기

1. ETL 기초 실습 1-1. ETL 개념 데이터 파이프라인의 기능 추출 (Extracting) 변환 (Transforming) 결합 (Combining) 검증 (Validating) 적재 (Loading) ETL이란 데이터 파이프라인의 기능 중 추출, 변환, 적

2023년 7월 19일
·
1개의 댓글
·
post-thumbnail

[DE kit] 3. ETL/Airflow

데이터 파이프라인 (=ETL, 크게 보면 ELT) 데이터 프로세싱을 위해 실행하는 코드 ETL: Extract, Transform and Load Data Pipeline, ETL, Data Workflow, DAG <- 다 동일어 ETL (Extract, Trans

2023년 6월 28일
·
0개의 댓글
·
post-thumbnail

4강. Day 1-3

학습주제학습내용데이터 웨어하우스가 작을 땐 프로덕션 DB이후 클라우드 옵션 사용ResShift, 빅쿼리 등장담점에 대해 논의해본다.클라우드 옵션고정비용 옵션 (redshift)가변비용 옵션 (big query, snowflake)오픈소스는 고정비용에 가깝고정비용은 비용

2023년 5월 24일
·
0개의 댓글
·
post-thumbnail

[데이터 엔지니어링] ETL/ELT

먼저 ETL과 ELT에 대한 설명에 들어가기에 앞서 각각 E, T, L의 개념을 정리해 보자.Extract: 외부의 데이터 소스에서 데이터를 추출하는 단계 Transform: 데이터 포맷을 원하는 형태로 변환 Load: 변환된 데이터를 최종적으로 데이터 웨어하우스에

2023년 5월 22일
·
0개의 댓글
·
post-thumbnail

빅데이터

4차 산업 발전을 위한 우리나라의 '데이터 3법'과 빅데이터 실행 및 기획의 순서, 그리고 ETL 파이프라인에 대해 알아보자

2023년 5월 1일
·
0개의 댓글
·
post-thumbnail

Cloud DLP와 Data Fusion을 사용한 데이터 마스킹

일전에 Cloud DLP와 Dataflow를 사용한 데이터 마스킹에서 데이터 마스킹을 다뤄본 적이 있다.이번엔 Data Fusion을 사용하여 데이터 마스킹을 해볼 것이다.우선 Cloud Storage 버킷을 하나 생성하고 input, output용 폴더를 하나씩 만들

2023년 3월 28일
·
0개의 댓글
·
post-thumbnail

[AWS] Managed Workflows for Apache Airflow (MWAA) 알아보기 - 1

📝서론 3월이 되면서 담당하는 서비스를 대폭(?) 늘리게 되었는데, Managed Workflows for Apahce Airflow도 그 대상 중 하나였습니다. 다른 서비스들에 비해 AWS에서 출시된지 그리 오래되지 않았음에도 불구하고 최근 들어 꽤나 많이 쓰이는

2023년 3월 25일
·
0개의 댓글
·
post-thumbnail

Data Pipeline

데이터 파이프라인의 정의와 ETL, ELT에 대해 알아보고 비교한다.

2023년 2월 4일
·
0개의 댓글
·
post-thumbnail

Apache Airflow 왜 필요한가?

현재 사내에서는 IBM Datastage

2023년 1월 26일
·
0개의 댓글
·
post-thumbnail

[DE] ETL과 ELT의 개념 (+ETLT)

1. ETL 1-1. 정의 ETL 프로세스란 여러 소스에서 데이터를 수집하고, 이를 표준화하여, 분석을 위한 데이터 웨어하우스 또는 저장을 위한 데이터베이스 또는 기타 유형의 데이터 소스에 적재하는 데이터 통합 프로세스이다. 1-2. 단계 E(Extract) : 추출

2023년 1월 25일
·
0개의 댓글
·
post-thumbnail

[DATA] ETL, ELT

어느정도 가치가 있고, 구조화된 데이터들이 모여있는 곳공간제약이 있어 필요한 모든 데이터를 저장하지않고, 어느정도 최근 데이터만 저장BI툴이랑 연결해서 시각화해서 지표계산하는게 일반적이다.데이터웨어하우스 기반 파이프라인보다 훨씬 큰 개념(호수)구조화된 데이터, 비구조화

2023년 1월 3일
·
0개의 댓글
·
post-thumbnail

IBM DataStage

ETL 도구 IBM Datastage ..현재는 11.x버전 까지 나왔다찾아보니 원래는 VMark ETL 이라는 이름으로 1996년에 나왔다.기능ETL 및 스케쥴링 기능을 주로 사용한다.모니터링 툴도 제공 사용방법이 어렵고 datastage basic이라는 별도의 언어

2022년 11월 22일
·
0개의 댓글
·

Kafka To Hive

실시간 데이터를 하이브에 저장해야하는 요건이 생길수가 있으므로, 참고자료를 남겨본다참조 : https&#x3A;//github.com/apache/hive/blob/master/kafka-handler/README.md

2022년 11월 19일
·
0개의 댓글
·
post-thumbnail

ETL

ETL은 Extract, Transfron, Load의 약자로 여러 시스템의 데이터를 단일 데이터베이스, 데이터 저장소, 데이터 웨어하우스 또는 데이터 레이크에 결합하기 위해 일반적으로 사용되는 방법입니다.DB에서 SQL을 통해 데이터를 가져오는 것이다.원래의 sour

2022년 11월 17일
·
0개의 댓글
·

ETL - Analyze 충돌 현상

conflict error

2022년 11월 15일
·
0개의 댓글
·
post-thumbnail

ETL

📁ETL : Extract ➔ Transform ➔ Load

2022년 10월 29일
·
0개의 댓글
·
post-thumbnail

Dataflow를 사용한 S3 to BigQuery 파이프라인 구축

일회성 마이그레이션이나 멀티 클라우드 환경을 쓰고 있지 않는 이상 클라우드간 네트워크 송신 비용이 나가기 때문에 이런 케이스가 많이 있는 편은 아니다.아래와 같은 csv파일에서 각 user_id에 대해 전송된 total amount를 계산해볼 것이다. user_id가

2022년 10월 21일
·
0개의 댓글
·