[그로스 해킹]을 읽고 - 데이터 파이프라인 만들기
데이터 파이프라인 만들기
- 데이터 파이프라인
데이터를 쌓고,필요한 형태로 가공 및 추출하고,의사결정에 활용할 수 있는 프로세스를 만드는 일이다.
- 데이터 파이프라인을 설계하는 과정에서 고려해야 하는 것
- 어떤 데이터를 쌓을 것인가? - 어떤 형태로 쌓을 것인가? - 어디에 쌓을 것인가? - 어떻게 꺼내서 볼 것인가?
=>요구사항에 따라 수집하는 데이터의 종류나 형태등이 달라질 수 있다.
=>따라서 데이터 분석가,마케터,경영진의 의견을 모두 고려해야 한다.✳️ 데이터 파이프라인이 잘 구축돼 있다면,
사용자 행동
기반의로그분석
을 할 수 있다.1) 행동 로그 분석을 위한 데이터 파이프 라인
사용자가 남기는 로그는서비스 로그
,행동 로그
로 구분
서비스 로그 행동 로그 트랜잭션의 결과를 기록 트랜잭션에 이르기까지 사용자가 서비스에 하는 액션에 대한 로그 ex)가입,예약,결제 ex)상품 클릭,검색,배너 스와이프등의 액션 =>
서비스 로그
는 기본적인 서비스 운영을 위해 필수적으로 관리해야함
ex)모든 변경분을 쌓을지,최종 수정 내용만 남길지 혹은 분석용 데이터베이스를 실시간으로 스트리밍으로 적재할지,일 배치로 적재할지 정도 고려하면 충분함=>
행동 로그
는 데이터의 양도 훨씬 많고 설계 자유도가 높아서 수집이나 활용이 상대적으로 까다롭다.2) 이벤트와 속성
- 행동 로그 설계의 핵심
=> 이벤트의 속성을 어떤 수준으로 남길 것인가를 정의하는 부분이다.
- 이벤트 속성 : 특정 이벤트가 발생했을때의 세부정보
일반적으로이벤트 속성
은키
와값
으로 이뤄져 있다.
경우에 따라서,이벤트 속성과 함께사용자 속성
을 기록하기도 한다.
=>하나의 이벤트가 발생했을때 훨씬 더 입체적으로 정보를 얻을 수 있다.
3) 행동 로그 설계하고 적재하기
✳️ 이벤트 스키마 설계서
이벤트를 어떤 기준으로 쌓아서 볼것인지 정의하는 문서=>어떤 화면의 어떤 이벤트를 기록할지 =>그 이벤트가 발생하는 정확한 조건이 무엇인지 =>이벤트와 함께 기록해야 하는 속성에는 어떤 것이 있는지 =>각 속성의 데이터 타입은 어떤 타입으로 기록해야 하는지 =>각 이벤트가 처음 기록되기 시작한 시점은 언제인지
ex) 이벤트 스키마 설계서 =>
필요한 이벤트
를정확
하게 수집하는 것이 중요하다=> 발생하는 모든 이벤트를 기록해야 한다는 생각을 버리고 분석에 필요한 이벤트를 정확하게 적재하는 것이 이 단계의 핵심이다.