데이터 파이프라인

안재영·2024년 5월 1일

데이터 파이프라인이란?

다양한 데이터 소스에서 원시 데이터를 수집한 다음 분석을 위해 데이터 레이크 또는 데이터 웨어하우스와 같은 데이터 저장소로 이전하는 방법입니다

데이터 파이프라인이 왜 필요한가?

디지털 기술의 발전으로 데이터들이 폭발적으로 증가하게 되어 하나하나 수작업으로
처리한다는것은 엄청난 비용과 비효율을 보여주게 되었습니다. 이러한 문제를 해결하기
위해 데이터 처리 작업을 자동화시키는 것(데이터 파이프라인)이 필요해졌습니다

데이터 엔지니어가 데이터 파이프라인을 구축한다는것은
원하는 곳에서 물처럼 흐르는 데이터를 물탱크나 호수에 쌓아두기위해 파이프를 연결하고 관리하는것으로 저희 데이터 엔지니어는 클라이언트가 원한다면 파이프에 필터를 만들어 깨끗한 물을 만들어내든 보일러를 만들어 끓여내든 요청한 형태로 담아낼수 있어야합니다

데이터 파이프라인 작업 단계

Data extracting: 데이터 추출
- 데이터를 추출하는 단계입니다
Data transforming: 데이터 변환
- 추출한 데이터를 사용 가능한 형태로 만들어내는 단계입니다.
Data combining: 데이터 결합
- 변환된 데이터를 하나의 공통된 형식으로 통합함으로써 중복된 데이터도 처리하며 데이터의 통일성과 일관성을 확보하는 단계입니다
Data validating: 데이터 검증
- 데이터의 정확성과 완전성을 확인하고 검증하는 단계입니다
Data loading: 데이터 적재
- 데이터베이스, 데이터 레이크, 데이터 웨어하우스등 저장소에 적재시키는 단계입니다

데이터 파이프라인 주요 유형

ETL (Extract, Transform, Load)

데이터를 추출(Extract)하여 여러 원본에서 가져옵니다.
추출한 데이터를 필요에 맞게 변환(Transform)하여 정리하고 구조화합니다.
변환된 데이터를 적절한 형식으로 저장하거나 데이터베이스에 적재(Load)합니다.

Batch Processing(일괄 처리방식)

일정한 주기로 데이터를 처리하는 방식입니다. 일반적으로 대량의 데이터를 처리하고 분석하는 데 사용됩니다.

제조 회사는 매일 수백만 개의 센서에서 수집된 생산 데이터를 처리해야 합니다.
이 데이터는 일괄 처리 방식을 사용하여 분석되어 생산 라인의 성능을 모니터링하고,
과거 데이터를 기반으로 예측 분석을 수행하여 장애를 방지하고 생산량을 최적화합니다

Stream Processing(스트리밍 처리방식)

실시간으로 데이터를 처리하는 방식입니다. 데이터가 발생하는 즉시 처리되며, 따라서 실시간 응용 프로그램 및 분석에 적합합니다.

소셜 미디어 플랫폼은 사용자가 생성하는 데이터를 실시간으로 처리해야 합니다.
이러한 실시간 처리 데이터를 기반으로 사용자가 게시한 콘텐츠를 분석하고 실시간으로 트렌드를 파악하기 위해 스트림 처리를 사용합니다.

끝으로

데이터 파이프라인을 마치 사람이 살아가는데 필요한 생체 시스템과 비슷합니다.

우리가 숨을 쉬고 밥을 먹으면 폐와 소화기관은 받아온 자원을 처리하여 혈관을 통해 우리 몸의 각 부분으로 혈액을 공급하고 산소와 영양소를 전달합니다.
마찬가지로, 데이터 파이프라인은 정제되지않은 데이터를 받아 처리하여 프로젝트의 각 부문으로 데이터를 공급하고 정보를 전달합니다.

데이터 파이프라인이나 생체 시스템이 제대로 작동하지 않으면 좋지 못한 결말을 볼 수 있습니다.그래서 데이터 파이프라인의 설계와 관리는 프로젝트의 성공과 효율성을 위한 핵심적인 요소이며 안정적이고 효율적인 데이터 파이프라인은 프로젝트가 원활하게 진행되도록 도와주며, 좋은 결과를 만들어 내는것이 가능할 것입니다.

안재영

이전 포스트

SQL_Analysis 5

다음 포스트