[TIL 34일차] 데브코스 데이터엔지니어링

heering·2023년 5월 25일
0

[파트 06]

Snowflake 특징

  • 가변 비용 모델
  • csv, json, avro, parquet 등 포맷 지원
  • S3, GC 클라우드 스토리지, Azure Blob Storage 지원
  • Time Travel (과거 데이터 쿼리 기능으로 트렌드 분석 쉽게)
  • 웹 콘솔 말고도 Python API를 통해 관리/제어
  • 클라우드 스토리지를 외부 테이블로 사용 가능
  • Data Sharing ("Share, Don't move"): Copy 개념이 아닌, 데이터셋을 사내 혹은 파트너에게 스토리지 레벨에서 공유하는 방식
  • Redshift와 달리 Group 지원하지 않음. Role은 계승 가능

Tip

AWS 어드민 사용자의 AWS KEY ID, SECRET KEY를 사용하지 말고 새로 계정 하나 만들어서 권한을 주자. 어드민 사용자 쓰다가 실수로 깃허브에 노출이라도 되면...

[파트 07]

Cohort(코호트)

  • 특정 속성을 바탕으로 나눠진 사용자 그룹 (보통 속성은 사용자의 서비스 등록월)

Cohort 분석

  • 코호트를 기반으로 사용자의 이탈률, 잔존율, 총 소비 금액 등을 계산

Cohort 기반 사용자 잔존율 (Retention)

  • 보통 월 기반으로 시각화해서 보는 것이 일반적

0개의 댓글