Data pipeline

이우철·2025년 5월 10일

데이터 소스에서 원시 데이터를 수집 변환 후 데이터 레이크나 웨어하우스에 저장하는 것

데이터수집 > 스트리밍 처리 or 분선스토리지(-> 분산 데이터 처리) > 시계열DB, 데이터마트 저장

난, a사 근무 시 C레베 통계를 뽑기 위해 데이터레이크를 관리 사용하였는데,

그때 사용한 기술 스택이

AWS Athena
Aws glue
Aws redshift
apahe nifi
apache druid
opensearch
s3, parche, postgresql 등등 이었다

정말 많은 기술스택을 가진 회사였고 동료들도 참일을 잘해서 일할맛 나는 회사였던 기억이 난다.

데이터 레이크 구축: Amazon S3에 저장된 데이터를 Glue를 통해 정리하고, Athena 또는 Redshift에서 분석 가능.

수집 단계에서 Apache NiFi를 활용하여 다양한 데이터 소스를 AWS S3로 전송.

저장 단계에서 원시 데이터를 Parquet 형식으로 S3에 저장.

처리 단계에서 AWS Glue를 사용하여 데이터 변환 및 정제 후 PostgreSQL 또는 Druid로 이동.

분석 및 검색에서는 AWS Athena를 사용하여 SQL 기반 분석을 수행하고, OpenSearch를 활용하여 비정형 데이터의 빠른 검색을 가능하게 함.

개발 정리 공간 - 업무일때도 있고, 공부일때도 있고...

2025년 5월 10일

postgresql 의 데이터를 glue job을 통해 s3 로 덤프 > 카탈로그에 등록

답글 달기