데이터분석환경설계 Data Taxonomy

솔비·2023년 11월 28일
1

🧷 Data Analysis

목록 보기
2/5
post-thumbnail

1. 데이터 분석 환경 설계란?

  • 분석환경을 통해 누구나 분석할 수 있게 수집, 분석, 시각화까지 데이터가 흐르는길(데이터파이프라인) 설계
  • 데이터분석을 위한 로그 설계와 수집

데이터분석환경을 구축하는 이유

누구나 데이터분석을 할 수 있어야 한다.

요청자와 분석가가 분리될 경우

요청자는

  • 데이터가 어디에 있는지 모르고
  • 데이터 추출을 위해 거쳐야 하는 절차가 복잡해지며
  • 간단한 데이터 추출과 분석에도 시간이 소요되고
  • 분석과와 싱크가 맞지 않으면 요청내용과 결과가 상이하다.

데이터 분석가의 경우

  • 데이터분석가에게 단발성으로 데이터추출요청이 쏟아지고,
  • 요청자의 요청이 명확하지 않을 경우 의미있는 인사이트가 도출되지 않고, 분석의 결과가 실행되지 않는 경우가 생긴다.

즉, Data Silo현상발생

데이터분석에 대한 권한이 하나의 팀에 집중되는 현상이 발생한다.

그런 이유로 요청자 = 분석가가 되어야하며,
데이터 분석가는 그 환경을 설계해주어야 한다.

💡 데이터 분석환경을 구축하면,

Data Silo현상을 없애고, 정성적대화가 아닌, 데이터로 대화하기가 가능하다.

as-is

to-be


2. 데이터 분석환경 구축 3 STEP

A. 1 Step 로그설계

로그 데이터란?

유저들의 모든 행동들을 데이터로 기록한것.
로그 데이터를 분석하면 실제현상에 대해서 자세히 확인 가능하다.

로그의 3가지 주요요소

  • 유저의 액션 (= Event)
  • 액션의 속성 (= Event Property)
  • 유저의 속성 (= User Property)

단순한 지표의변화 (e.g. 회원가입, 구매하기)보다는 지표의 분석(액션의속성, 유저의 속성)을 해야 유의미한 인사이트를 뽑아 낼 수 있다.

예를들어,

위 지표에서 구매하기 지표 (=Event)만 봤다면

10/1 대비 10/2 구매 수가 늘어났다.

정도만 파악 할 수 있지만,
브랜드이름(=Event Property), 유저가 기존유저인지 신규유저인지(= User Property)를 함께 본다면

나이키의 반응이 좋고, 해당 소재로 신규유저타켓 광고를 운영해야겠다.

라는 인사이트를 얻어낼 수 있다.

로그설계전략

5w를 기억하자

  • where : 어디서왔는지
  • who : 누가 클릭한건지
  • what : 무엇을 클릭했는지
  • when : 언제 클릭했는지
  • why : 왜 클릭했는지

예를들어
구매하기 버튼 클릭에 대한 로그를 수집한다면,
event(구매하기클릭)에 관련된 정보
event property : 상품명, 상품가격, 후기 등등
user property : 아이디, 나이, 지역 등등
까지 모두 수집되도록 설계하고

거기에 더불어 수집시점(trigger), 수집소스(source), 수집기기(platform) 등까지 수집되도록 설계하는데

이를 데이터 수집을 위한 분류체계 Taxanoy라고한다.

Taxonomy 설계 프로세스

1. 비즈니스 목표 및 KPI 설정

  • 데이터분석을 하는 목적을 기억하기
    수집되는 데이터에는 분석의 의도가 담겨있어야한다.
    e.g. 매출액개선 -> 매출관련 직/간접 데이터 수집
  • 모든 이벤트를 측정하려고 하지 않기
    많은 데이터는 많은 기회기도 하지만 직접적인 인사이트를 의미하지 않는다.
    또, 많은 데이터는 높은 비용을 의미한다는것을 이해하자
    e.g. 1탭배너 프로모션 클릭율과 프로모션 페이지뷰 모두 수집 시 중복 데이터 포인트 소진 이슈 발생
    ( 랜딩되는 페이지의 경로가 다양하지 않을 때의 예시)

2. Critical path (중요경로) 설정

  • 모든 제품에는 중요경로가 존재
    제품내에 가장 중요한 이벤트와 해당 이벤트가 포함되는 시작이벤트부터의 경로
    즉, 사용자가 서비스에 들어오고 나가는 주요과정
유저가 필수적으로 가야하는 경로는 끝에서부터 소거하는 방식이 진짜 필수 경로를 찾기에 효과적

3. 마지막 Event를 기준으로 Property 정의

Critical event의 마지막 Step에는 가장 많은 속성값을 수집하는 경우가 많음
e.g. 구매완료페이지의 속성
(상품명, id, brand, category, price, coupon_id 등등)

4. Critical path 이벤트들의 공통 & 개별 Property 정의

마지막 Step을 기준으로 앞쪽의 Event에서 수집 필요하지 않은 속성을 소거하는 방식

📢 참고하면 좋을 영상들

핫한 이벤트 텍소노미 taxonomy 를 배우고 싶으시다면! - 1편
핫한 이벤트 텍소노미 taxonomy 를 배우고 싶으시다면! - 2편

B. 2 Step 데이터저장

Architecture 그리기

수집된 데이터 유형과 조직 및 데이터베이스 시스템 내에서 데이터를 수집, 저장, 관리 및 통합하는 방법을 제어하고 정의하는 일련의 규칙, 정책, 표준 및 모델
즉, Datapipeline 구조화,
Data의 연결 및 흐름도

대이터의 소스와 저장이 한 곳에서 이루어지는 경우가 많지않다.
단순한 데이터의 추출이 아닌 다양한 Solution들의 연계를 고려한 설계를 해야한다.

Martech-tool 선정

목적에 따른 솔루션들을 적절히 구분

수집정의서작성 -> Data mart

앞선 강의에서도 강조하셨듯이
데이터는 구성원 모두가 확인하여야 하기 때문에

이 데이터가 어디에 저장 될것인지.
데이터 형식은 무엇으로 할지,
데이터 설명 예시값은 (...)등이 들어간 수집정의서를 작성한다.

📢 Data mart 란

수 많은 데이터 중 사용목적에 맞는 데이터만 일부분 떼서 보는것이 효과적이다.
그렇게 때문에 하나의 data mart를 구축한다.

ERD 작성 (시각화)

우리는 누군가와 함께 일해야 한다는 것을 잊어서는 안된다.
그렇기 때문에 수집정의서와 ERD 시각화는 매우 중요하다.

C. 3 Step 데이터변형

= ETL 전략
= Data Engineering

  • 정의
    다른사람이 데이터를 사용하기 쉽도록 저장/수집, ETL작업
  • WHY
  1. 구성원들이 Data를 더 효과적으로 사용하여 분석의 효율을 높이는 작업이 필요
  2. 단순 데이터 공급을 넘어 운영 효율적 데이터 공급을 위함
  3. 데이터가 존재하지만 데이터 추출 과정이 어렵다면 이를 개선

패스트캠퍼스 그로스 리더와 세계 3등에게 배우는 13개 데이터 분석 프로젝트
Study Note
profile
Study Log

3개의 댓글

comment-user-thumbnail
2024년 3월 23일

안녕하세요
우연히 검색하다 들어왔는데 내용 너무 잘 정리되어 있어서 공부 잘하고 갑니다!
혹시 데이터 환경 구축 및 텍소노미 관련해서 딥하게 공부하고 싶은데!
올려주신 글 속에 이미지는 패스트캠퍼스 교육을 듣고 직접 만드신걸까요?
그리고 맞다면 https://fastcampus.co.kr/data_online_13project 이 강의가 맞을까요???

2개의 답글