데이터 웨어하우스
- 회사에 필요한 모든 데이터를 저장
- 프로덕션 데이터베이스와는 별도여야 함
- 데이터 웨어하우스는 고객이 아닌 내부 직원을 위한 데이터베이스
- 처리속도가 아닌 처리 데이터 크기가 더 중요함
- ETL 혹은 데이터 파이프라인
- 외부에 존재하는 데이터를 읽어다가 데이터 웨어하우스로 저장해주는 수단이 필요해지는데 이를 ETL혹은 데이터 파이프라인이라고 부름
데이터 인프라
- 데이터 엔지니어가 관리함
- 여기서 한 단계 더 발전하면 Spark과 같은 대용량 분산처리 시스템이 일부로 추가됨
데이터 순환 구조
- 앱을통해서 데이터를 누적
- 누적된 데이터를 비니지스 인사이트를 위해 활용
- 비지니스 인사이트를 통해 제품 서비스 개선
- 개선 부분이 사이트에 반영
- 개선된 사이트에서 다시 데이터 수집