[그로스 해킹]을 읽고 - 데이터 파이프라인 만들기
데이터 파이프라인 만들기
- 데이터 파이프라인
데이터를 쌓고,필요한 형태로 가공 및 추출하고,의사결정에 활용할 수 있는 프로세스를 만드는 일이다.
- 데이터 파이프라인을 설계하는 과정에서 고려해야 하는 것
- 어떤 데이터를 쌓을 것인가? - 어떤 형태로 쌓을 것인가? - 어디에 쌓을 것인가? - 어떻게 꺼내서 볼 것인가?=>요구사항에 따라 수집하는 데이터의 종류나 형태등이 달라질 수 있다.
=>따라서 데이터 분석가,마케터,경영진의 의견을 모두 고려해야 한다.✳️ 데이터 파이프라인이 잘 구축돼 있다면,
사용자 행동기반의로그분석을 할 수 있다.1) 행동 로그 분석을 위한 데이터 파이프 라인
사용자가 남기는 로그는서비스 로그,행동 로그로 구분
서비스 로그 행동 로그 트랜잭션의 결과를 기록 트랜잭션에 이르기까지 사용자가 서비스에 하는 액션에 대한 로그 ex)가입,예약,결제 ex)상품 클릭,검색,배너 스와이프등의 액션 =>
서비스 로그는 기본적인 서비스 운영을 위해 필수적으로 관리해야함
ex)모든 변경분을 쌓을지,최종 수정 내용만 남길지 혹은 분석용 데이터베이스를 실시간으로 스트리밍으로 적재할지,일 배치로 적재할지 정도 고려하면 충분함=>
행동 로그는 데이터의 양도 훨씬 많고 설계 자유도가 높아서 수집이나 활용이 상대적으로 까다롭다.2) 이벤트와 속성
- 행동 로그 설계의 핵심
=> 이벤트의 속성을 어떤 수준으로 남길 것인가를 정의하는 부분이다.
- 이벤트 속성 : 특정 이벤트가 발생했을때의 세부정보
일반적으로이벤트 속성은키와값으로 이뤄져 있다.
경우에 따라서,이벤트 속성과 함께사용자 속성을 기록하기도 한다.
=>하나의 이벤트가 발생했을때 훨씬 더 입체적으로 정보를 얻을 수 있다.
3) 행동 로그 설계하고 적재하기
✳️ 이벤트 스키마 설계서
이벤트를 어떤 기준으로 쌓아서 볼것인지 정의하는 문서=>어떤 화면의 어떤 이벤트를 기록할지 =>그 이벤트가 발생하는 정확한 조건이 무엇인지 =>이벤트와 함께 기록해야 하는 속성에는 어떤 것이 있는지 =>각 속성의 데이터 타입은 어떤 타입으로 기록해야 하는지 =>각 이벤트가 처음 기록되기 시작한 시점은 언제인지ex) 이벤트 스키마 설계서
=>
필요한 이벤트를정확하게 수집하는 것이 중요하다=> 발생하는 모든 이벤트를 기록해야 한다는 생각을 버리고 분석에 필요한 이벤트를 정확하게 적재하는 것이 이 단계의 핵심이다.