[데이터 분석을 위한 SQL 레시피] Day 4

신두다·2022년 6월 21일
0

NOTE

  • 이 시리즈는 『데이터 분석을 위한 SQL 레시피』 가사키 나가토, 다미야 나오토 저. 한빛미디어를 통해 공부하는 내용을 저의 언어로 기록해두기 위해 만들어졌습니다.

[2장] 이 책에서 다루는 도구와 데이터


[4강] 데이터

[데이터의 종류]

  • 이 책은 업무 데이터: 업무에 필요한 데이터, 로그 데이터: 업무에 직접적으로 필요하진 않지만 분석을 위해 추출해야 하는 데이터로 나누고 있다.
  • 업무 데이터: 서비스와 시스템을 운용하기 위한 목적으로 구축된 데이터베이스에 존재하는 데이터
    • 중요한 건 대부분 갱신형 데이터라는 것.
    • 트랜잭션 데이터,마스터 데이터로 다시 나눌 수 있음.
    • 마스터 데이터가 뭔지 헷갈려서 더 찾아봤다. 트랜잭션 데이터에는상품 ID: 200004와 같이 데이터를 저정하는데, 그럼 이 데이터만으로는 200004의 상품명이 뭔지를 알 수 없게 된다. 그때 200004 == 감귤 라는 정보가 저장되어 있는 마스터 데이터를 필요할 때 트랜잭션 데이터와 결합하여 분석의 폭을 넓힐 수 있는 것으로 이해하면 될 것 같다.
  • 로그 데이터: 이 책에서는 내가 알고 있는 그 통계/분석을 주 용도로 설계된 데이터, 특정 태그를 포함해 전송된 데이터, 특정 행동을 서버 측에 출력한 데이터를 모두 로그데이터로 부른다고 한다.
    • 한가지 중요한 건 이 로그 데이터는 누적형 데이터라는 것이다. (로그 출력 이후 특정 정보가 변경되더라도 기존의 데이터를 수정하지 않는다.)

[업무 데이터]

  • 업무 데이터의 특징
    • 데이터 정밀도가 높다. (데이터 처리 중 문제가 발생하면 트랜잭션과 롤백을 사용해 문제를 제거할 수 있다.) 따라서 정확한 값이 요구되는 매출 관련 리포트 등을 만들 때는 업무 데이터를 사용한다.
    • 갱신형 데이터다. (추가, 갱신, 제거 등)
    • 다뤄야할 테이블의 수가 많다. 특히 RDB.
  • 업무 데이터 다루기
    • 데이터의 정밀도가 높으므로 정확한 값을 요구하는 경우 활용. (로그 데이터는 추출 방법에 따라 손실 가능)
    • 방문 횟수, 페이지 뷰 등의 데이터 분석에는 사용할 수 없음.
      • 이(책에서 말하는 건 DB 설계자의 니즈에 따라 케바케긴 하겠지만, 보통 이런 로그 데이터를 직접 담아두지 않긴 하겠지.)
    • 데이터 추출 시점에 따라 데이터가 달라질 수 있는 건 당연한거니까 오케이. (갱신형 데이터!)

[로그 데이터]

  • 로그 데이터의 특징
    • 시간, IP, cokkie 등의 정보를 저장한 것이다.
    • 추출방법에 따라 데이터의 정밀도가 달라진다.
    • 갱신형이 아니라 '누적형' 데이터이므로 과거의 데이터가 변경되지는 않는다. 새롭게 데이터가 계속 추가될 뿐.
  • 그 외 추가로 설명하는 내용은 업무 데이터/로그 데이터의 특징을 보면 예측할 수 있으므로 기록 생략.

[두 데이터를 사용해서 생성되는 가치]

  • 이 책에서는 '웹사이트에서 오프라인으로 사용자를 유도하는 서비스'에서 두 데이터를 함께 사용했을 때 시너지가 난다고 보고 있다.
  • 가령, 웹 사이트 내에서의 행동을 로그 데이터로 보고, 오프라인 매장에서의 행동은 업무 데이터(Pos 등)으로 파악하는 것이다.
    • (온라인 + 온라인도 마찬가지일텐데? 직접적인 언급은 없네.)*
  • 사용 가치
    • 목표 관리,서비스 개선,미래 예측

어째 전 회사에서 하던 일이랑 똑같네.
다음 시간부턴 직접 SQL 해볼 것 같다!

profile
B2B SaaS 회사에서 Data Analyst로 일하고 있습니다.

0개의 댓글