2022년 매출 데이터 분석 : EDA 프로젝트 회고

TOLL TERRY·2023년 11월 23일
0
  • 본 프로젝트는 2023 AIupStage & FastCampus AI LAB 과정 중에
    데이터 EDA 프로젝트로, 데이터의 설명과 함께, 분석 과정을 담았습니다.

패캠 2022년 매출 데이터 분석

  1. 패스트 캠퍼스 매출 늘리기
  • 타겟 유저 : 첫구매 유저와, 재구매 유저에 따라 다른 전략
    -> 매출 비중이 첫구매 유저 : 재구매 유저의 비중이 2:8 이며
  • 요청 사항 : 매출 증대를 위한 액션 아이템 제안

# Insight

    1. 카테고리별 인기강의와 현재 패스트캠퍼스 카테고리에서 나오는 컨텐츠 구성이 다르다. 이걸 맞춰서 추천해줄 수 없을까?
    1. 재구매 고객은 평균 다음 구매까지 약 99일이 걸린다. -> 유저 대상 푸시 메세지를 이에 맞춰서 보낼 수 있어보인다.
    1. 유저별로 수강하는 과목의 카테고리가 다양하고 이를 묶어서 연관관계를 분석하면 강의 상세페이지에서, 연관 강의 추천에 적용할 수 있지 않을까?

1. 데이터 이해하기

먼저 주어진 데이터의 수는 총 15만개이며, 열의 갯수는 16개의 특징들을 가지고 있는 2022년의 매출데이터를 분석한 EDA 프로젝트 이다.

데이터의 전처리및 데이터의 특징들을 보면, 결측치는 존재하지 않았으며, 각각 팀원들끼리 협동하며 데이터의 타입 변경 및 불필요한 데이터들은 사전에 미리 얘기하며 데이터 분석을 진행하였다.


- 단순히 매출을 월별단위로 그래프를 시각화 하였을 경우에, 1월과 12월인 겨울방학에 집중되는 매출패턴이 보였으며, 이 데이터에서 인사이트는 4월과 5월에 매출보다 2배이상의 매출액을 보였다.
  • 다음은 데이터를 카테고리별 수강 인원과 총 거래 금액에 따라 시각화한 그래프이다. 이 그래프에서는 강의를 수강했던 인원대비 총 매출금액에 차이가 있음을 시사하고 있다.

  • 위 그림에서는 데이터를 시간별 특성에 따라 매출에 영향도를 확인하였다. 결론적으로는 새벽 시간인 00~07시 보다 아침 10시, 저녁 11시의 거래 비중이 월등히 높음을 통해 데이터의 특성을 파악할 수 있었다.

- 다음으로 top3에 해당하는 인기 강의가 매출별과 수강인원에 따라 달라지는 양상을 확인할 수 있었다. 이를 통해서 유저들이 구매하는 강의가 인원과 매출이 서로 영향이 다름을 알게되었다.
- 위 그림에서는 신규 유저(40%)와 재구매 유저(60%)의 비중이 달랐으며, 재구매 유저와 신규 유저의 구매 패턴은 비슷한 양상이지만, 매출에서도 차이가 있음을 알 수 있었다.

데이터 이해 정리

  • 성인 교육 특성상, 연말과 연초에 거래 횟수가 늘어나는 추이이다.
  • 신규 유저보다 지속적으로 강의를 구매하는 유저의 비중이 더 높다. (6:4)
  • 강의를 수강했던 인원대비 총 매출금액에 차이가 있으며, 시간대별 강의 매출에 영향이 있다.

2. 데이터 분석

따라서 기존의 목표였던 영업이익이라는 목표를 "매출", "비용"으로 세분화 하여 각 관점에 대한 데이터 분석을 새롭게 진행하였습니다.

매출의 관점

  • 인기 카테고리의 강화 (Contents)
  • 신규 유저 늘리기 (Paid Marketing)
  • 리텐션 유저 늘리기 (Recommendation)

비용의 관점

  • 비용 줄이기 (Promotion)

why ?

  • 카테고리 : 특정 카테고리에 매출이 집중되어 있지 않을까 ?
  • 수강과목 : 특정 과목에 매출의 집중이 되어 있는 가 ?
  • 구매횟수 : 신규유저가 일으키는 매출이 더 많은 가 ?

1. 카테고리

  • 전체 매출 비중에 많은 매출의 비중은 "프로그래밍" 카테고리이며, 비중과 다르게 강의당 매출이 높았던 것은 "부동산/금융", "일러스트"의 강의가 높음을 분석함.

수강과목

  • 인기강의의 top 10를 확인결과 ---> 전체 매출의 15% 차지하며, 실제로 강의가 시작된 날짜와 비교할 경우엔 "일러스트" 카테고리에서 2022년 8월에 오픈한 것에 비교하여 가장 많은 매출에 기여하였다고 볼 수 있습니다. 또한 현재 데이터 사이언스 트렌드가 상승세에 비하여 상위 10개의 강의내에 없었음을 분석하였습니다.

구매횟수

  • 위 그림에서 확인할 수 있듯이, 신규 유저와 재구매 유저는 4:6의 비율을 가지지만, 실제 매출의 비율에서는 대략 3.7배의 차이가 존재함을 알 수 있습니다.

데이터 분석 정리

최종적으로 분석결과, 2022년 패스트캠퍼스 매출에 가장 큰 차이를 나타내는 요인은 "구매횟수"라는 결론을 얻게 되어, 프로젝트의 목표를 "재구매 유저 늘리기"로 정의하였습니다.

  • 실제 매출에서 가장 큰 차이를 내는 요인은 유저의 구매 횟수이다.
  • 총 매출이 높으며, 강의당 매출 비용이 높은 카테고리는 "일러스트" 카테고리이다.

따라서, 패스트캠퍼스 영업이익 증가를 위해, 재구매 유저 증대 방안을 위해서, 재구매 유저의 패턴을 분석하여 첫 구매 유저를 재구매하도록 전환 방안을 도출하였다.


3. 재구매 유저 분석

  • 재구매 유저의 경우, 한가지 카테고리에 한정하여 강의를 듣는 것이 아닌, 여러가지의 카테괴를 구매하는 특성을 가짐. (1년간 평균 강의수 : 2.6개, 카테고리 수 2.2개)

  • 재구매 유저는 주로 2~3달 이내에 새로운 강의를 구매하며, 강의 순서에 따른 구매 주기 차이는 없다.(구매주기 (주)단위시 mean 13.28, (월)단위시 mean 2.73

  • 재구매 유저는 "부업/창업", "영상/3D", "투자/재테크"를 첫 강의로 들은 유저들이 다른 카테고리 대비 재구매율이 8%p나 높았다.

따라서,

  • 영업이익을 늘리기 위해선, 매출을 올리는 방향에 집중하는 것이 임팩트가 큼.
  • 매출을 올리는데 있어서는 유저가 지속적으로 강의를 구매하도록 만드는 것이 주요 요인.
  • 재구매 유저 특성상 카테고리에 관계없이 다양한 종류의 강의를 소비함.

4. Action Item

다음과 같이 첫번째 강의 구매한 여부에 따라 Action Item을 제시한다.

  • 재구매 유저는 수강한 내역 기반의 유사한 강의 추천.
  • 신규 유저는 Best 카테고리 및 과목 노출.

구매 데이터 기반 추천 시스템

재구매 유저의 구매 데이터 기반의 강의를 추천하여, 재구매 및 구매욕구를 도출하는 것이 이 추천시스템의 목표이다.

추천시스템의 진행과정 (5가지)

세부 진행과정

1. 빈도 수가 많은 어휘를 제거

강의 제목 : 올인원 패키지 : 김왼손의 파이썬 업무자동화 유치원
위의 제목에서 먼저 단어 빈도수가 가장 많은 어휘를 제거하였습니다. 먼저 top10에 해당하는 단어 빈도수는 키워드별 count를 세어 가장 많은 단어를 제거하여, 중요도가 없는 단어들을 제거하였습니다.

2. 문장의 토큰화

다음으로, 문장을 토큰화를 진행하여, 김, 왼손, 의, 파이썬, 업무, 자동화, 유치원
으로 문장을 변형합니다.

3. TF-IDF 이용한 Vectorization

다음으로, 문장을 컴퓨터가 학습할 수 있도록, 벡터화를 진행합니다. 이때 TF-IDF를 이용하여, 각각 유니크한 토큰의 수는 총 1025개 중에 현재 문장을 나타내는 벡터는 5개의 원소를 갖는 벡터로 변환하였습니다.

4. Cosine Similarity

벡터화된 문장간의 Cosine Similarity를 계산하여, 유사도가 큰 5가지의 강의를 다음과 같이 얻는다. 현재 문장 올인원 패키지 : 김왼손의 파이썬 업무자동화 유치원은
유사도 0.4786 ~ 0.3553에 해당하는 5가지의 추천 강의를 확인할 수 있다.
이때 유사도는 문장간의 유사도를 잘 나타내고, 계산의 용이성을 위하여 코사인 유사도를 활용하였다.

5. Random 요소 추가

추천된 강의가 유사도가 높은 강의 3개 뿐만 아니라, 추천의 다양성을 위하여 유사도가 높지 않은 강의 중에 random하게 강의를 추가하여 준다.


한계점

  1. 수강 데이터의 부재
  • 패스트캠퍼스 내의 컨텐츠는 단순구매 이후에 유저가 어떻게 수강하는지, 실제 수강을 완료하였는 지에 요소가 재구매 요소에 큰 영향을 가질것이라 판단하지만, 해당 데이터에서는 얻을 수 없었다는 점.
  1. 재구매 유저 정의에 대한 부정확성
  • "2022년 매출 데이터"만 가지고 있기에, "21년"에 결제후 "2022년"에 1번만 결제한 유저는 재구매 유저가 아닌 단일 구매 유저로 속하여 의도와 다르게 해석될 여지가 있다.
  1. 강의가 open되는 시기를 알 수 없음.
  • 위 문제는 월별 매출, 카테고리별 매출에 따라 오픈한 강의가 많을수록 매출에 영향을 줄 수 밖에 없습니다. 따라서 인기 강의 역시 2022년 후반에 오픈한 강의일 수록 제외되었을 가능성이 높다.

최종 Keep, Try

Keep

  • 팀원들 간의 데이터를 미리 살펴보며, 의견을 토의할 것
  • 미리 발표 자료를 설정하고, 추가적인 분석을 함께 진행한 것
  • 인사이트 도출을 위한 팀원들간의 의견을 서로 존중해준 것

Try

  • 코드 정리를 위한 기본적인 데이터 전처리 방식과 변수를 통일할 것
  • 초기 분석 목적을 정하는 것에 시간을 할애할 것
  • 주어진 데이터만 분석하는 것이 아닌, 추가적 데이터셋을 포함하여 분석할 것
profile
행복을 찾아서(크리스 가드너)

0개의 댓글