데이터 분석 도메인의 이해

박경민·2023년 2월 12일
0

[Machine Learning]

목록 보기
18/35
post-thumbnail

데이터 분석 도메인이란 무엇일까?

도메인 지식이란 특정 분야의 전문화된 지식을 말한다. 도메인 지식이 있는 사람들을 해당 분야의 전문가로 간주하기도 한다.

예컨대 내가 상품 판매를 위해 '더 나은 판매전략을 고심하는 데이터분석가'라고 한다면 당연히 그 상품에 대해서 알아야 할 것이고, 고객을 분석해야 할 것이고, 현재 서비스 되는 회사의 구성을 알아야 할 것이다. 이런 것들이 도메인 지식이다.

주요 도메인에 따른 분석 요소는 고객, 주문상품, 상품, 조직 으로 나눠볼 수 있다. 추가로 청구, 수납, 프로모션도 가능하다.

✅고객
고객은 우리가 흔히 아는 고객 정보를 생각하면 된다. 서비스 계정도 포함이다. 이런 것들을 추출해 다 분석에 이용한다.

  • 성별 나이 거주지 직업
  • 가족 소득 부동산
  • 신용도 계정 정지

✅ 주문 상품
어떤 상품을 주문하는가에 대한 답이다. 이것도 분석한다.

  • 주문 상품 건수
  • 일, 주, 월 별 주문건수
  • 주문 상품 금액, 재구매, 평균 구매
  • 구매 주기, 최근 구매 여부

✅ 상품
회사가 서비스하는 상품에 대한 정보다.

  • 상품 대,중,소 분류, 가격, 유형
  • 구성, 할인, 결합

✅ 조직
내 회사의 정보이다.

  • 조직 대/중/소, 내/외부 조직
  • 채널, 판매점, 협력 업체

청구는 매출을 뜻할 수 있다. 수납은 수납, 미납, 월별 예정액 등이 있다. 프로모션은 회사가 서비스하는 유형, 쿠폰, 정기/ 비정기 행사 등이 있다.

다음은 사용자 분석 속성의 예시다.

  • 사용자별 상품 주문 고유 건수
  • 중분류 고유 건수
  • 대분류 고유 건수
  • 평균 주문 요일
  • 사용자별 재구매 상품 건수
  • 구매 시간 평균/최대/최소
  • 상품 건수 대비 주문 고유 건수
  • 요일별, 시간대별, 재구매 평균
  • 최대/최소 주문 번호
  • 최대 누적 기간
  • 마지막 주문으로부터 기간

이러한 도메인들을 있으면 그냥 쓰고, 없으면 가공해서 추출하는 게 해야하는 '일'이다.

🤔머신러닝 구성 요소

데이터 + 알고리즘!

문제 도메인을 먼저 정의하고, 데이터 수집과 가공을 한다. (알고리즘을 사용해서) 이게 순서다! 따라서 도메인은 매우매우 중요한 지식이자 기술이라 할 수 있다.

profile
Mathematics, Algorithm, and IDEA for AI research🦖

0개의 댓글