Data Build tool데이터 웨어하우스 관리를 단순화 하고, 그 안의 데이터를 변환합니다.Primarily handles the T in ELT주로 ELT(또는 때로는 ETL) 프로세스 내의 T 작업을 다룹니다.Allows easy switching between
DBT 프로젝트에는 DBT 내의 모든 작업에 필요한 모든(선택적) 구성요소가 포함됩니다.프로젝트 이름, 폴더 이름데이터 소스 및 대상SQL 쿼리템플릿데이터 및 데이터 관계에 대한 문서DBT는 특정 시스템에서 폴더 구조로 구현됩니다. 따라서 필요에 따라 쉽게 복사, 수정
Create project(dbt init)Define configuration(profiles.yml)Create / use models / templatesInstantiate models(dbt run)dbt 하위 명령을 사용하여 모델을 인스턴스화작성한 소스코드를
Conceptual, with different difinitions depending on contextRepresents the logical meaning of dataHow the data and its components relateHelp users coll
계층 구조는 모델 간 종속성을 나타내며, 이는 원본데이터와 변환된 데이터 간의 관계를 의미합니다.이는 DAG 또는 Lineage Grapah 라고도 합니다.데이터엔지니어링 도구에서 일반적인 개념으로 말하는 DAG보다는 조금 더 구체적인 의미입니다.따라서 종속성을 염두해
Query ErrorsSyntax errorsLogic errorsInvalid references(개체 참조 오류)Misspellings / syntax issuesNon-standard SQLCommon SQL logic issuesNot Grouping by al
Assertions / validations of dbt objectModelsSources, seeds, snapshotsUsed to verify data is as expectedNull valuesValues in rangeRelationships between
Custom data testWritten as an SQL queryMust return failing rowsDefined as .sql file in tests directoriesCreate a test to verify the order_total is gre
DBT 용어로 일반 테스트라고도 하는 재사용 가능 테스트는 여러 상황에서 재사용할 수 있는 테스트입니다.A test that can be reused in multiple situationsMuch like a built-in dbt test, but can check
데이터엔지니어링이나 웨어하우징에는 종종 문서화 문제가 간과되곤 합니다.Sharing data details with other consumersCentralize sources of documentationProviding details for updates / cha
Name and description of data loaded by EL processdbt에서 소스는 EL 프로세스에 의해 로드된 데이터의 이름을 지정하고, 설명하는 기능을 나타냅니다.이는 데이터 웨어하우스에 있거나, 들어오려고하는 데이터에 추가 정보를 적용하는 것
CSV files to be loaded into data warehouseTypically rarely chaing sets of dataList of countriesList of postal codes(우편번호)Not meant for raw dataEasy to
스냅샷은 시간에 따른 데이터세트의 변화를 살펴보는 것입니다.객체의 다양한 상태와 해당 상태가 유효한 시간을 보여줍니다.Order statusProductions tatusShipping statusSlowly changing dimensionType 2SCD2Kimba
sources and seeds feed initial data to dbtEL 파이프라인을 거쳐 올라온 sources와 일반적으로 csv 파일로 구성될 수 있는 seedsmodels handle the transformation of data (usually from
dbt commandsdbt run, dbt test, dbt -hProjects in dbtGeneral folder structuredbt_project.ymlCreating dbt models with SQLDefining the model in SQL files
DBT를 배웠으니, 이제 로컬에서 한번 가볍게 데이터 파이프라인을 만들어보겠습니다. 물론, 스케줄링이 붙지않아 자동화되지 않겠지만, 추후에 에어플로우와 함께 프로젝트를 진행해보겠습니다. 프로젝트 1. 가상환경 생성 2. DBT, DuckDB 설치 3. dbt