[데이터 엔지니어링 데브코스 2기] TIL-15주차 Kafka와 Spark Streaming 기반 스트리밍 처리 (2)

이재호·2024년 1월 23일

[데이터 엔지니어링 데브코스 2기]

목록 보기

61/70

데이터 웨어하우스(AWS Redshift)의 도입.
ETL 프로세스 개발.
- Airflow
프로덕션 DB 테이블 스키마의 변경(updated_at과 deleted 필드 추가).
사용자 이벤트 로그를 프로덕션 DB에서 저장하는 방식에서 nginx 로그로 뺴는 작업 수행.
- Hadoop 클러스터를 만들고 HDFS로 복사한 다음에 Hive로 처리.
- Kafka에 적재하고 다수의 consumer로 처리.
- 사용자 이벤트 처리용 마이크로 서비스를 구현 후 K8s 위에서 실행.
데이터 분석(Decision Science) 팀 구성.
BI(Business Intelligence) 툴 도입.
- ChartIO -> Tableau
데이터 분석팀의 요구 프로세스 도입.
- 요청용 슬랙 채널 개설.
- 모든 사람들이 슬랙 채널을 통해서 전반적인 과정을 투명하게 볼 수 있음.
지표 표준화.
- 매출, 액티브 유저 등에 대한 명확한 기준을 정함.
- 지표 기반 의사결정 방법 (데이터 문해력) 교육.
내부 직무 전환 제도를 통해 디지털 마케터를 분석가로 고용.
데이터 사이언스 팀 설립.
- 개인 추천 ML 모델 사용.
- A/B 프로세스 도입.
- MLOps 프로세스 도입.
on-premise에서 cloud 서비스로 이전.
배치 처리에서 kafka를 활용한 실시간 처리로 변환.

천천히, 그리고 꾸준히.