데이터 파이프라인을 구축하고 운영할 때 고려해야 할 요소들을 정리해보겠습니다. 이번 글에서는 데이터 적재 방식, 매체 데이터 수집, BigQuery 모델링, 그리고 배포 및 자동화에 대해 설명합니다.
데이터 적재 방식은 크게 Full Refresh, Incremental, 6개월 단위 적재로 나뉩니다. 각각의 방식은 데이터 특성과 신선도를 고려해 선택해야 합니다.
데이터 유형 | 적재 방식 |
---|---|
기상청 날씨 데이터 | Full Refresh + 6개월 적재 |
GA4 유저 행동 데이터 | Full Refresh |
매체 데이터 (Meta, TikTok 등) | Incremental |
데이터 수집 방법에 따라 직접 API 호출과 외부 솔루션 활용으로 나뉩니다.
🎯 광고 매체 예시: Moloco, Meta, TikTok, Google Ads, X, Kakao
데이터 적재 주기는 데이터의 성격과 활용 목적에 따라 다르게 설정해야 합니다.
yesterday - month(1)
)💾 클러스터링 & 파티셔닝 전략
데이터 규모가 커질수록 성능 최적화를 위해 파티셔닝 & 클러스터링을 적극적으로 활용해야 합니다.
event_date
기준으로 파티셔닝📌 권장 기준
| 데이터 크기 | 모델링 방법 |
|-------------|------------------|
| 1억 행 이상 | 파티셔닝 권장 |
| 10억 행 이상 | 파티셔닝 필수 |
API 호출 시에는 실행 속도와 Rate Limit을 반드시 고려해야 합니다.
💡 문제 발생 시 해결 방법
1. API 제공 업체에 문의
2. 실행 방식 최적화 (Batching, 병렬 처리 활용)
데이터 파이프라인을 운영하면서 자동화를 고려하는 것이 중요합니다.
🚀 Terraform을 활용한 배포
main.py
만 인식됨 (주의!)✅ 자동화를 통해 운영 부담을 줄이고, 안정적인 데이터 적재 파이프라인을 구축할 수 있음