현재 방문객(신규, 재방문 고객), 과거 방문객(일년 전, 저번주, 이번주 고객 데이터 비교) 등 고객 관련 데이터를 한 눈에 볼 수 있는 대시보드 페이지를 개발 중이다.
주간 회의 전 사수분께서 간단하게 데이터마이닝이 무엇인지 아냐고 물어보셨다. 부끄럽게도 대답을 잘 하지 못했다.
사수분께서 우리 회사의 주요 타겟은 유아, 아동이기 때문에 날씨, 방학이 매출에 중요한 요소다. 그래서 평일 데이터, 주말 데이터, 주간 날씨, 주간 데이터 등으로 데이터마이닝을 하는 것이라 알려주셨다.
개발을 하기 전에 현재 만들고 있는 페이지가 "왜" 필요한지 생각해보는 것이 중요하다는 것을 한번 더 깨달았다.
개발자는 어떤 데이터를 보여줘야 마케팅이나 오너가 의사결정을 하고 회사 매출을 위해 기여할 수 있을까 생각해야 한다.
데이터마이닝의 개념에 대해 간단하게 정리해보았다.
일반적으로 목표 설정, 데이터 수집 및 준비, 데이터 마이닝 알고리즘 적용, 결과 평가의 네 가지 주요 단계로 구성된다.
주어진 프로젝트에 대한 데이터 질문과 매개 변수를 알려주는 데 도움이 된다.
아주 중요한 단계임에 불구하고 많은 기업에서는 이 단계에 적은 시간을 소비한다.
문제 범위가 정의되면 비즈니스 질문에 답하는 데 도움이 될 데이터를 식별한다.
그리고 관련된 데이터를 수집하면 데이터 중복, 누락 및 이상 값과 같은 것을 제거하고 모델 내에서 최적의 정확도를 보장하기 위해 예측 변수를 유지하려고 한다.
분석 유형에 따라 순차 패턴, 연관 규칙과 같은 데이터 관계를 조사한다.
데이터 세트에 레이블이 지정되면 분류 모델을 이용 해 데이터를 분류해 가능성을 예측한다.
레이블이 지정되지 않은 경우 개발 데이터 포인트를 서로 비교해 유사성을 발견하고 해당 특성을 바탕으로 클러스팅한다.
데이터가 집계되면 결과를 평가하고 해석해야한다.
조직은 이 지식을 사용해 의도한 목표를 달성하고 새로운 전략을 수립한다.
• 소매업 적용사례 - 고객의 구매패턴 -> (연관성분석 장바구니분석)
• 신용카드회사 적용사례 – 부정행위적발, 예방
-> (의사결정나무분석, 신경망분석)
• 의료분야 적용사례 – 암진단 -> (판별 및 분류분석)
• 제조업 적용사례 - 불량품의 자동발견 -> (연관성규칙분석, 군집분석)
• 통신회사 적용사례 – 고객전화사용패턴 -> (군집분석)
• 스포츠경영 적용사례 – (소비자에 대한 마케팅전략)