[데이터 엔지니어링 데브코스 2기] TIL-15주차 Kafka와 Spark Streaming 기반 스트리밍 처리 (2)

이재호·2024년 1월 23일
0

1. Udemy의 데이터팀 빌딩 절차


  1. 데이터 웨어하우스(AWS Redshift)의 도입.
  2. ETL 프로세스 개발.
    • Airflow
  3. 프로덕션 DB 테이블 스키마의 변경(updated_at과 deleted 필드 추가).
  4. 사용자 이벤트 로그를 프로덕션 DB에서 저장하는 방식에서 nginx 로그로 뺴는 작업 수행.
    • Hadoop 클러스터를 만들고 HDFS로 복사한 다음에 Hive로 처리.
    • Kafka에 적재하고 다수의 consumer로 처리.
    • 사용자 이벤트 처리용 마이크로 서비스를 구현 후 K8s 위에서 실행.
  5. 데이터 분석(Decision Science) 팀 구성.
  6. BI(Business Intelligence) 툴 도입.
    • ChartIO -> Tableau
  7. 데이터 분석팀의 요구 프로세스 도입.
    • 요청용 슬랙 채널 개설.
    • 모든 사람들이 슬랙 채널을 통해서 전반적인 과정을 투명하게 볼 수 있음.
  8. 지표 표준화.
    • 매출, 액티브 유저 등에 대한 명확한 기준을 정함.
    • 지표 기반 의사결정 방법 (데이터 문해력) 교육.
  9. 내부 직무 전환 제도를 통해 디지털 마케터를 분석가로 고용.
  10. 데이터 사이언스 팀 설립.
    • 개인 추천 ML 모델 사용.
    • A/B 프로세스 도입.
    • MLOps 프로세스 도입.
  11. on-premise에서 cloud 서비스로 이전.
  12. 배치 처리에서 kafka를 활용한 실시간 처리로 변환.
profile
천천히, 그리고 꾸준히.

0개의 댓글