[DE] ETL과 ELT 비교, 5가지 주요 차이점

류성훈·2022년 7월 29일
0

DE

목록 보기
2/2

ETL과 ELT의 5가지 주요 차이점

  1. ETL은 데이터의 추출(Extract), 변환(Transform), 로드(Load) 프로세스를 가리킵니다.
    ELT는 데이터의 추출(Extract), 로드(Load), 변환(Transform) 프로세스를 가리킵니다.
  2. ETL에서 데이터는 데이터 소스에서 스테이징을 거쳐 데이터 웨어하우스로 이동합니다.
  3. ELT는 데이터 웨어하우스를 활용하여 기본 변환을 실행하며 데이터 스테이징을 할 필요가 없습니다.
  4. ETL은 민감한 보안 데이터를 정리한 후 데이터 웨어하우스에 로드하기 때문에 데이터 개인정보 보호와 규정 준수에 도움이 됩니다.
  5. 또한 정교한 데이터 변환을 수행할 수 있고 ELT보다 비용 효율적일 수 있습니다.

ETL과 ELT의 비교를 설명하기는 쉽지만 큰 그림(잠재적 장점 비교)을 파악하려면 ETL이 데이터 웨어하우스와 함께 작동하는 방식과, ELT가 데이터 레이크와 함께 작동하는 방식에 대한 심도 싶은 지식이 필요합니다.

ETL 및 ELT에 대한 개요

정보 소스는 구조화된 SQL 데이터베이스를 사용하든 구조화되지 않은 NoSQL 데이터베이스를 사용하든 상관없이 동일하거나 호환 가능한 형식을 거의 사용하지 않으므로, ETL과 ELT는 데이터 과학 분야에서 필수적입니다. 따라서 데이터 소스를 먼저 정리, 보강, 변환한 후에 하나의 분석 가능한 전체로 통합해야 합니다.

이러한 방식으로 비즈니스 인텔리전스 플랫폼(ex:Looker, Chartio, Tableau, QuickSight)이 데이터를 이해하여 인사이트를 확보한 수 있습니다.

데이터 변환/통합 프로세스는 ETL과 ELT 모두 다음과 같이 세 단계로 구성됩니다.

  • 추출
    원본 데이터베이스 또는 데이터 소스에서 소스 데이터를 가져오는 것을 추출이라고 합니다.ETL에서는 데이터가 임시 스테이징 영역으로 들어갑니다. ELT의 경우, 데이터는 데이터 레이크 스토리지 시스템으로 곧바로 들어갑니다.
  • 변환
    변환이란 대상 데이터 시스템 및 해당 시스템의 나머지 데이터와 통합할 수 있도록 정보의 구조를 변경하는 과정을 일컫습니다.
  • 로드
    로드란 정보를 데이터 스토리지 시스템에 보관하는 과정을 말합니다.

상세 ETL 프로세스

온라인 분석 처리(OLAP) 데이터 웨어하우스의 경우 클라우드 기반이든지 온사이트든지 상관없이 관계형 SQL 기반 데이터 구조를 함께 사용해야 합니다.

따라서 OLAP 데이터 웨어하우스에 로드되는 모든 데이터는 데이터 웨어하우스가 수집하기 전에관계형 형식으로 변환되어야 합니다.

이러한 데이터 변환 프로세스의 일환으로 데이터 매핑을 사용하여 상관관계에 있는 정보를 기반으로 여러 데이터 소스를 결합해야 할 수도 있습니다.

(그 결과 비즈니스 인텔리전스 플랫폼이 정보를 통합된 단일 단위로 분석할 수 있음)

  • 명확한 워크플로우를 통한 지속적인 프로세스
    ETL은 가장 먼저 같은유형 또는 다른유형의 데이터소스에서 데이터를 추출합니다.
    그 다음, 데이터를 스테이징 영역에 보관합니다.
    스테이징 영역에서 데이터는 전체 과정을 거쳐 보강되고 변환되어 마지막으로 데이터 웨어하우스에 보관됩니다.
  • 데이터 엔지니어 및 개발자가 필요한 상세 계획, 감독, 코딩을 하는 데 사용
    데이터 웨어하우징에서 기존의 핸드코딩 ETL 변환 방식은 엄청난 시간이 소요되었습니다.
    프로세스가 설계된 후에도 새로운 정보로 데이터 웨어하우스를 업데이트 할 때는 데이터가 각 단계를 거치는 데 시간이 걸렸습니다.
  • 쉽코 빠른 최신 ETL 솔루션
    특히 클라우드 기반 데이터 웨어하우스와 클라우드 기반 SaaS 플랫폼의 경우 최신 ETL의 진행속도가 훨씬 빠릅니다. integrate.io 같은 클라우드 기반 ETL 솔루션을 사용함으로써 사용자는 프로그래밍 전문가 없이도 다양한 소스에서 즉각적으로 데이터를 추출, 변환, 로드할 수 있습니다.

ETL의 최대 장점

ELT 대비 ETL의 가장 큰 장점 중 하나는 OLAP 데이터 웨어하우스가 사전 구성된다는 특성과 관련이있습니다. 데이터가 구조화되고 변환되면 ETL을 통해 더욱 빠르고 효율적이며 안정적으로 데이터를 분석할 수 있습니다.
반대로 ELT는 빠른 분석을 요구하는 작업에는 적합하지 않습니다.

ELT 대비 ETL의 또 다른 커다란 장점은 규정 준수에 있습니다. GDRR, HIPAA 또는 CCPA의 규정을 따르는 기업은 고객 개인 정보 보호를 위해 특정 데이터 필드를 제거, 마스킹 또는 암호화해야 하는 경우가 많습니다. 여기에는 이메일을 도메인으로 변환하거나 IP주소의 마지막 부분을 제거하는 작업이 포함될 수 있습니다.
ETL의 경우 데이터 웨어하우스에 데이터를 로드하기 전에 변환하기 떄문에 더욱 안전하게 변환을 수행할 수 있습니다.

반면, ELT의 경우에는 먼저 민감한 데이터부터업로드 해야합니다. 그 결과 시스템 관리자가 액세스 할 수 있는 로그에 데이터가 나타나게 됩니다.

또한, ELT를 사용하여 데이터를 변환하면 데이터를 데이터 레이크에 업로드 할 때 미준수 데이터가 EU를 벗어날 경우 EU의 GDPR 규정 준수 표본을 의도치 않게 위반할 수 있습니다.

궁극적으로, ETL의 경우 미준수 데이터가 실수로 데이터 웨어하우스나 보고서에 나타나는 일이 절대 없기 떄문에 규정 준수 위반의 위험이 낮습니다.

마지막으로, 데이터 통합/변환 프로세스로서 ETL는 20년 이상 존재해왔습니다.

즉, 데이터 추출, 변환, 로드 요구사항을 지원해줄 수 있는 제대로 개발된 ETL툴과 플랫폼이 많습니다.

또한, ETL 파이프라인 설정에 능숙한 숙련된 데이터 엔지니어를 쉽게 찾을 수 있습니다.

상세 ELT 프로세스

ELT 프로세스는 데이터 레이크와도 밀접한 관련이 있습니다.

“데이터 레이크”는 OLAP 데이터 웨어하우스와 달리 모든 종류의 구조화된 데이터 또는 구조화되지 않은 데이터를 수용하는 특별한 종류의 데이터 저장소입니다.

데이터 레이크의 경우 데이터를 로드하기 전에 변환해야 합니다. 모든 유형의 원시정보는 형식이나 부족 여부에 상관없이 데이터 레이크에 즉시 로드할 수 있습니다.

데이터를 비즈니스 인텔리전스 플랫폼으로 분석하기 전에도 데이터 변환이 필요합니다.

그러나 데이터 정리,보강,변환은 데이터가 데이터 레이크에 로드된 후에 진행됩니다. ELT와 데이터 레이크를 이해하는 데 필요한 몇 가지 세부사항은 다음과 같습니다.

  • 속도가 빠른 클라우드 기반 서버를 통해 가능해진 신기술
    ELT는 최신 클라우드 기반 서버 기술 덕분에 가능해진 비교적 새로운 기술입니다.
    클라우드 기반 데이터 웨어하우스는 거의 무한대의 스토리지 기능과 확장 가능한 처리 능력을 제공합니다.
    예를 들어 AWS RedShift 및 Google BigQuery와 같은 플랫폼의 뛰어난 처리 역량을 기반으로 ELT 파이프라인 구축이 가능해집니다.
  • 데이터 사용 가능 시 모든 것을 수집
    ELT를 데이터 레이크와 함께 사용하면 데이터가 사용 가능해지는 즉시 지속적으로 확장하는 원시 데이터 풀을 수집할 수 있습니다. 데이터를 데이터 레이크에 저장하기 전에 특별 형식으로 변환할 필요는 없습니다.
  • 필요한 데이터만 변환
    ELT는 특정 분석 시에 필요한 데이터만 변환합니다. ELT 때문에 데이터 분석 프로세스는 느려질 수 있지만 다양한 유형의 메트릭, 예측, 보고서 등을 생성하기 위해 즉시 다양한 방식으로 데이터를 변환할 수 있으므로 유연성은 더 높습니다.
    반대로 ETL을 사용하면, 사전에 결정된 구조로는 새로운 유형의 분석이 불가능할 경우 전체 ETL 파이프라인과 OLAP 웨어하우스의 데이터 구조를 변경해야 할 수도 있습니다.
  • ETL보다 안정성이 부족한 ELT
    아직 발전 단계에 있는 ELT 툴과 시스템은 OLAP 데이터베이스와 함께 사용할 수 있는 ETL에 비해 안정성이 떨어집니다. ETL이 설정은 더 힘들어도 대규모 데이터 풀을 처리할 때는 보다 정확한 인사이트를 제공합니다.
    또한 ETL 개발자보다 ELT기술을 사용할 줄 아는 ELT개발자를 찾기가 더 어렵습니다.

ELT의 최대 장점

ETL 대비 ELT의 주요 장점으로는 유연성과 새로군 구조화되지 않은 데이터 저장의 용이성이 있습니다. ELT를 사용하면 처음에 정보를 변환하고 구조화할 수 있는 시간이나 기술이 없어도 모든 유형의 정보를 저장할 수 있기 때문에 원할 때 언제든지 모든 정보를 즉시 사용할 수 있습니다.
아울러, 데이터 수집 전에 복잡한 ETL 프로세스를 ㄱ발할 필요가 없고 개발자와 BI 분석가가 새로운 정보를 처리할 때 시간을 절약할 수 있습니다.

기타 ELT의 이점은 다음과 같습니다.

  • 빠른 속도
    데이터 가용성의 측면에서 ELT가 더 빠른 옵션입니다.
    ELT를 사용하면 모든 데이터가 시스템으로 즉시 들어가고, 사용자는 변환과 분석이 모두 필요한 데이터를 정확히 판단할 수 있습니다.

  • 유지 관리의 번거로움 감소
    ELT를 사용하면 일반적으로 사용자는 수동적인 개인이 필요한 유지 관리 계획을 수립하지 않아도 됩니다. ELT는 클라우드 기반이므로 사용자의 수동 업데이트에 의존하지 않고 자동화 솔루션을 활용합니다.

  • 신속한 로드
    데이터가 웨어하우스에 들어가기 전까지는 변환 단계가 일어나지 않으므로 데이터를 최종 위치에 로드하는 데 소요되는 시간이 단축됩니다. 데이터가 정리 또는 변경될 때까지 기다릴 필요가 없으며, 데이터는 대상 시스템에 한 번만 들어가기만 하면 됩니다.

  • 🙆‍♂️사용 사례

    1. 방대한 양의 데이터를 보유한 기업. ELT는 구조화 된 데이터 및 구조화되지 않은 데이터를 모두 대량으로 사용할 때 가장 적합합니다.
      대상 시스템이 클라우드 기반일 때 ELT 솔루션은 더 신속하게 대규모 데이터를 처리할 수 있는 가능성이 높습니다.
    2. 필요한 처리 능력을 다룰 수 있는 리소스를 갖춘 조직
      ETL 사용 시, 대부분의 처리는 데이터가 웨어하우스에들어가기 전 파이프라인에 존재하는 동안 진행됩니다. 반면 ELT는 데이터가 데이터 레이크에 도달하면 작업을 진행합니다. 목적에 부합하는 데이터 처리에 필요한 요구 사항에 따라 소규모 기업은 데이터 레이크의 이점을 충분히 누리기 위해 필요한 광범위한 기술을 개발 또는 탐색할 만한 재정적 여유가 부족할 수 있습니다.
    3. 최대한 빨리 모든 데이터를 동일 위치에서 사용해야 하는 기업. 프로세스의 마지막 단계에 변환이 진행되면 ELT는 전송 속도를 최우선시하고 좋고 나쁨을 떠나서 모든 데이터가 추후 변환을 위해 데이터 레이크에 들어가게 됩니다.

ETL과 ELT 비교

ETLELT
기술 채택과 툴 및 전문가의 가용성20년 이상 사용되었으며 제대로 개발된 프로세스로서 ETL 전문가를 쉽게 찾을 수 있습니다.신기술인 ELT의 경우, 전문가를 찾기 어렵고 ETL에 비해 파이프라인 개발이 까다롭습니다.
시스템 내 데이터 가용성데이터 웨어하우스와 ETL 프로세스를 만들 때 필요하다고 판단한 데이터만 변환하고 로드합니다. 따라서 해당 정보만 사용 가능합니다.모든 데이터를 즉각적으로 로드할 수 있고, 사용자는 변환 및 분석 대상 데이터를 추후에 결정할 수 있습니다.
계산 추가 가능 여부계산으로 기존 열을 대체하거나, 데이터 집합을 첨부하여 계산 결과를 대상 데이터 시스템에 푸시할 수 있습니다.기존 데이터 집합에 열을 직접 추가합니다
데이터 레이크와의 호환성일반적으로 데이터 레이크용 솔루션이 아닙니다. ETL은 구조화된 관계형 데이터 웨어하우스 시스템과 통합하기 위해 데이터를 변환합니다.구조화되지 않은 데이터 수집을 위해 데이터 레이크용 파이프라인을 제공합니다. 그런 다음, 데이터를 분석에 필요할 때만 변환합니다.
규정 준수민감한 정보를 데이터 웨어하우스나 클라우드 서버에 로드하기 전에 삭제할 수 있습니다. 따라서 GDPR, HIPAA, CCPA 규정 준수 표준을 쉽게 충족할 수 있습니다. 아울러 데이터를 해킹과 부주의한 노출로부터 보호합니다.민감한 정보를 삭제하기에 앞서 데이터를 업로드 해야합니다. 이 때 GDPR, HIPAA, CCPA 표준 위반 가능성이 발생합니다. 민감한 정보는 해킹과 부주의한 노출에 더 취약합니다. 클라우드 서버가 다른 나라에 있다면 일부 규정 준수 표준을 위반할 수도 있습니다.
데이터 크기와 변환의 복잡성 비교복잡한 변환이 필요한 소규모 데이터 집합을 처리하는 데 가장 적합합니다.대량의 구조화된 데이터 및 구조화되지 않은 데이터 처리에 가장 적합합니다.
데이터 웨어하우징 지원클라우드 기반 및 온사이트 데이터 웨어하우스가 사용되며 관계형 또는 구조화된 데이터 형식이 필요합니다.클라우드 기반 데이터 웨어하우징 솔루션을 사용하여 구조화된 데이터, 구조화되지 않은 데이터, 반구조화된 데이터 형식과 원시 데이터 형식을 지원합니다.
하드웨어 요구사항클라우드 기반 ETL플랫폼에는 특별한 하드웨어가 필요하지 않습니다. 레거시 온사이트 ETL프로세스의 경우 고비용의 광범위한 하드웨어 요구 사항이 있지만 요즘에는 많이 사용되지 않는 프로세스입니다.클라우드 기반으로, 특별한 하드웨어가 필요 없습니다.
집합의 차이점데이터 집합의 규모가 커질수록 집합이 복잡해집니다.강력한 클라우드 기반 대상 데이터 시스템만 있으면 대규모 데이터를 빠르게 처리할 수 있습니다.
구현 복잡성파이프라인 구축 시 ETL전문가를 쉽게 찾을 수 있습니다. ETL 툴도 고도로 발달했기 떄문에 ETL 프로세스가 단축됩니다.솔루션 구현을 위한 툴은 신기술로서 아직 발전 단계에 있습니다. 게다가 필수 ELT 지식 및 기술을 갖춘 전문가도 찾기 어렵습니다.
유지 관리 요구사항Integrate.io와 같이 자동화된 클라우드 기반 ETL 솔루션의 경우 유지 관리가 거의 필요하지 않습니다. 그러나 물리적 서버를 사용하는 온사이트 ETL 솔루션에는 유지 관리가 자주 요구됩니다.데이터는 추출된 다음, 대상 데이터 시스템에 먼저 로드됩니다. 일부 데이터가 추후에 분석을 목적으로 “필요한 경우”에만 변환됩니다.
비용세션별 결제 가격 모델을 청구하는 클라우드 기반 SaaS ETL플랫폼 (ex:Integrate.io)은 사용량 요구 사항에 따라 약 100달러부터 시작하는 유연한 요금제를 제공합니다. 한편 엔터프라이즈급 온사이트 ETL 솔루션(ex:Informatica)의 경우 일 년에 100만 달러 이상이 청구될 수 있습니다.세션별 결제 가격 모델을 청구하는 클라우드 기반 SaaS ELT 플랫폼은 약 100달러부터 시작하는 유연한 요금제를 제공합니다. 비용 면에서 ELT의 장점 주 하나는 비싼 요금을 내지 않고도 데이터를 로드하고 저장만 하려는 경우 초기 비용을 절약할 수 있습니다. 그러나 재정적으로 어려운 기업이라면 데이터 레이크의 이점을 충분히 얻기 위해 필요한 처리 기능을 이용하지 못할 수 있습니다.
변환 과정변환은 데이터 웨어하우스 밖의 스테이징 영역 내에서 일어납니다.변환은 데이터 시스템 자체 내에서 진행되며 스테이징 영역이 필요하지 않습니다.
구조화 되지 않은 데이터 지원구조화 되지 않은 데이터를 구조화하는 데 사용될 수 있지만 구조화되지 않은 데이터를 대상 시스템으로 전달하는 데는 사용된 수 없습니다.구조화되지 않은 데이터를 데이터 레이크로 업로딩하는 솔루션으로서 구조화되지 않은 데이터를 비즈니스 인텔리전스 시스템에서 사용할 수 있게 해줍니다.
정보를 로드하기까지 대기 시간로드시간의 경우 1. 데이터를 스테이징 영역으로 로드 2. 변환 수행 3. 데이터를 데이터 웨어하우스로 로드 등 여러 단계로 구성되어 있기 때문에 ELT보다 깁니다. 데이터 로드가 완료되면 정보 분석은 ELT보다 빠릅니다.변환을 기다릴 필요가 없고 데이터는 대상 데이터 시스템으로 한 번만 로드되기 떄문에 데이터 로드가 더 빠르게 진행됩니다. 그러나 정보 분석은 ETL보다 느립니다.
변환이 수행되기까지 대기시간데이터마다 로드되기 전에 변환되어야 하므로 초기 데이터 변환시간이 더 깁니다. 또한, 데이터 시스템 크기의 확장에 따라 변환 시간이 더 소요됩니다. 그러나 일단 변환이 수행되고 시스템에 존재하면 분석이 빠르고 효율적으로 진행됩니다.변환은 로드 후에 필요할 때만 진행되고 당시에 분석해야 하는 데이터만 변환하므로 변환이 훨씬 빠르게 일어납니다. 그러나 지속적으로 데이터를 변환해야 하므로 총 쿼리/분석 시간이 느려집니다.

출처

ETL과 ELT 비교: 5가지 주요 차이점

profile
(전)Backend Developer / (현)Data Engineer

0개의 댓글