[Dacon] 데이콘 Basic 여행 상품 분석시각화 경진대회

Tino-Kim·2022년 9월 1일
0
post-thumbnail

[Dacon] 데이콘 Basic 여행 상품 분석시각화 경진대회

안녕하세요, 데이콘에서 두번째로 참가하는 대회입니다. 이번 목표는 모든 칼럼에 대해서 분석하는 것을 목표로 삼았습니다. 그래서 모든 칼럼을 이용해서 시각화를 진행하였는데, 다음에는 분석의 컨셉을 잡고 접근하는 것이 인사이트를 더 깔끔하게 도출할 수 있을 것 같네요. 부족하지만, 제 분석을 클릭해주시고, 읽어주셔서 감사합니다.

1. 필요한 라이브러리 불러오고, 그래프 설정하기.

제가 사용할 패키지들을 별칭을 이용하여 불러왔습니다. 그리고 폰트는 맑은 고딕을 이용하고, 그래프 배경은 하얀색 그리드로 지정해주었습니다.

2. 데이터 둘러보기.

일단 df를 이용하여 데이터를 가져왔습니다. 그리고 원본 데이터를 보호하기 위하여, copy를 이용하여 df_copy에 복사한 데이터를 넣어줍니다. 그리고 칼럼을 확인하고, 범주형과 연속형을 나누어 주었습니다.

칼럼 설명

  • id : 샘플 아이디
  • Age : 나이
  • TypeofContact : 고객의 제품 인지 방법 (회사의 홍보 or 스스로 검색)
  • CityTier : 주거 중인 도시의 등급. (인구, 시설, 생활 수준 기준) (1등급 > 2등급 > 3등급)
  • DurationOfPitch : 영업 사원이 고객에게 제공하는 프레젠테이션 기간
  • Occupation : 직업
  • Gender : 성별
  • NumberOfPersonVisiting : 고객과 함께 여행을 계획 중인 총 인원
  • NumberOfFollowups : 영업 사원의 프레젠테이션 후 이루어진 후속 조치 수
  • ProductPitched : 영업 사원이 제시한 상품
  • PreferredPropertyStar : 선호 호텔 숙박업소 등급
  • MaritalStatus : 결혼여부
  • NumberOfTrips : 평균 연간 여행 횟수
  • Passport : 여권 보유 여부 (0: 없음, 1: 있음)
  • PitchSatisfactionScore : 영업 사원의 프레젠테이션 만족도
  • OwnCar : 자동차 보유 여부 (0: 없음, 1: 있음)
  • NumberOfChildrenVisiting : 함께 여행을 계획 중인 5세 미만의 어린이 수
  • Designation : (직업의) 직급
  • MonthlyIncome : 월 급여
  • ProdTaken : 여행 패키지 신청 여부 (0: 신청 안 함, 1: 신청함)

범주형 변수 vs 연속형 변수

: 범주형 변수로 나눌 수 있고, 연속형 변수로 통계값을 계산할 수 있습니다.

  • 범주형 변수 : id, TypeofContact, CityTire, Occupation, Gender, ProductPitched, PrefferedPropertyStar, MaritalState, Passport, PitchSatisfactionScore, OwnCar, Designation, ProdTaken (13개)
  • 연속형 변수 : Age, DurationOfPitch, NumberOfPersonVisiting, NumberOfFollowups, NumberOfTrips, NumberOfChildrenVisiting, MonthlyIncome (7개)

그리고 결측치와 데이터 정보 (범주형 변수의 종류, 기본적인 수치값 등등)에 대하여 알아보았습니다. 결측치는 약 1% 밖에 없었습니다.

3. 데이터 전처리하기. (EDA)

3-1. Fe Male을 Female로 변경시켜주기.

Gender 칼럼에서 여성이 Fe Male로 되어있어서 Female로 변경하였습니다.

3-2. 정수형으로 변경시켜주기.

후속 조치 수 칼럼, 여행 횟수 칼럼이 모두 소수로 되어있어서 정수형으로 변경하였습니다. 그리고 프레젠테이션 기간에 np.nan이 있어서 제거하였습니다.

3-3. 카테고리로 변경하기.

연락 방식 자체는 카테고리인데, 카테고리로 되어있지 않아서 카테고리로 변경하였습니다.

3-4. 칼럼 이름 모두 소문자로 변경하기.

데이터 분석을 해본 결과, 칼럼 이름에 대문자가 있는 경우 굉장히 불편한 경험이 있었어서 모두 소문자로 변경하였습니다.

4. 데이터 시각화하기. (Visualization)

4-1. 남녀 별, 나이 대 별 직업 분포 알아보기.

일단 남녀 별로 직업 분포를 알아보기 위하여 scatterplot을 그려보았습니다.

대체로 넓게 퍼져있음을 알 수 있습니다. 그리고 남녀 별로 따로 몰려있는 경향도 보이지 않습니다. 그래서 남녀 별로 정확하게 알아보기 위하여 barplot을 그려보았습니다.

대체로 남성이 더 많은 경향을 띄고 있습니다. 정리하자면, 프래랜서는 30 ~ 40대 남성 딱 1명 뿐입니다. 그리고 샐러리 맨이 가장 많았고, 그 다음에는 소규모 사업가, 대규모 사업가 순으로 이루어져 있습니다. 3개 직업 모두 10대 후반 부터 60대 초반까지 골고루 퍼져있음을 알 수 있습니다. 즉, 특정 나이 대에 몰려있는 직업군은 따로 없는 것으로 보여집니다. 또한, 3개 직업 모두 여성보다는 남성이 많은 것으로 보여지고 있습니다.

4-2. 남녀 별, 나이대 별 월급 분포 알아보기.

분포를 알아보기 위하여 scatterplot을 그려보았습니다.

위의 그래프를 보면, 대부분의 사람들은 월급이 16000 이상 ~ 40000 미만으로 이루어져 있습니다. 그리고 여성 분들 중에서 월 90000 이상 버시고, 월 1000 을 버시는 분이 3명 계시고, 이것은 이상점으로 판단해도 괜찮을 것 같습니다.

월급을 20000 이상 ~ 40000 이하 사이를 받는 사람들 중에서 성별 비율을 알아보기 위하여 pie 그래프를 그려보았습니다.

월급이 20000 이상 40000 이하를 가진 사람들 중에서 남성의 비율이 약 60% 정도 됩니다.

4-3. 남녀 별, 직업 별 월급 분포 알아보기.

분포를 알아보기 위하여 scatterplot을 그려보았습니다.

이상점을 가진 직업을 찾았습니다. 굉장히 돈을 잘 버시는 여성분 2명은 샐러리맨이였고, 가장 돈을 잘 벌지 못 하는 월 1000을 버는 여성분은 대규모 사업가였습니다. 4개 직업 모두 대체로 15000 이상 ~ 40000 미만의 월급을 받고 있습니다.

소규모 사업가와 샐러리맨이 대규모 사업가보다 좀 더 빼곡하게 월급 분포에 자리잡고 있음을 알 수 있습니다. (소규모 사업가와 샐러리맨이 더 많기 때문입니다.) 전체적으로 한 쪽으로 치우치는 경향을 보이지는 않습니다.

4-4. 영업 사원이 제시한 상품 별 여행 인원 수 분포 알아보기.

일단 어린 아이 (0세 ~ 4세 아이) 와 같이 가는 가족과 그렇지 않는 가족들이 추천받는 상품이 다를 수도 있을 것 같아 데이터를 나누어서 그래프를 그렸습니다.

일단 영업 사원이 제시한 상품은 Basic이 가장 많고, King이 가장 적습니다. 대부분의 사람들은 Basic이나 Deluxe 상품으로 여행을 추천 받고 있습니다. 어린 아이를 데리고 가는 가족들은 어떤 상품으로 여행을 가는지 알아보고 싶어서 체크해보았는데, 위와 같은 경향으로 여행을 추천 받고 있습니다.

또한, 직업 그리고 직급에 따른 엉업 사원이 고객에게 제시한 상품에 대해서도 알아볼 수 있습니다.

일단 프리랜서는 Basic을 추천받은 것을 알 수 있습니다. 그리고 대규모 사업가의 약 42%는 Basic으로 추천받았고, 샐러리맨의 약 40%는 Basic으로 추천받았고, 소규모 사업가의 약 38%는 Deluxe로 추천받았습니다. 대규모 사업가와 샐러리맨은 Basic을 가장 많이 추천받았고, 소규모 사업가는 Basic과 Deluxe를 가장 많이 추천받았습니다.

여행 상품을 추천받은 직급의 비율도 알아보았습니다.

여행 상품 별 평균 월급 분포도 알아보았습니다.

Basic이 전체적으로 제일 낮고, King이 전체적으로 가장 높습니다. 월급과 영업 사원이 고객에게 제시하는 상품은 관련성이 있어보입니다. 월급이 높은 순으로 King > Super Deluxe > Standard > Deluxe > Basic 순으로 제시하고 있습니다. 상품의 금액이 King > Super Deluxe > Standard > Deluxe > Basic 순으로 비쌀 것으로 예상됩니다.

직급 별 추천 받은 여행 상품의 개수에 대하여 bar 그래프로 그려보았습니다.

그리고 그에 따른 평균 월급의 분포도 그려보았습니다.

월급은 VP > AVP > Senior Manager > Manager > Executive 순으로 많습니다. 고로 직급과 영업 사원이 제시한 상품과 월급 간에 관련성이 깊다고 볼 수 있습니다.

4-5. 결혼 여부에 따른 영업 사원이 제시한 상품 별 여행 인원 수 분포 알아보기.

필요한 칼럼들만 가져와서 새로운 데이터 프레임을 만들어주었습니다.

결혼 여부에 따른 영업 사원이 제시한 상품 별 여행 인원 수의 분포도 알아보았습니다. 비혼이신 분과 이혼하신 분께는 Deluxe를 더 많이 제시하고, 결혼하신 분과 미혼이신 분께는 Basic을 더 많이 제시하고 있습니다.

4-6. 고객의 제품 인지 방법 별 인원 수 분포 알아보기.

직접 찾아본 사람의 수가 압도적으로 많은 편에 속합니다. 직접 방문 보다는 인터넷 검색이 많기 때문에, 온라인 위주로 홍보하는 것이 좋겠습니다. (여행 상품 홈페이지 개설 및 업데이트, 여행 카페 등에 홍보글 올리기 등등)

4-7. 영업 사원이 고객에게 제공하는 프레젠테이션 기간 별 횟수 분포 알아보기.

기간이 9인 경우가 가장 많고, 5인 경우가 가장 적었습니다. 프레젠테이션 제공 기간은 약 15일 정도 됩니다. 9일인 경우는 200회에 근접하고 5일인 경우는 거의 없습니다.

4-8. 남녀 별 영업 사원이 고객에게 제공하는 프레젠테이션 기간 별 평균 만족도 분포 알아보기.

기간이 5인 경우에 여성의 평균 만족도가 많이 떨어져있음을 알 수 있습니다. 대부분의 평균 만족도는 2.5 ~ 4.0 사이입니다. 기간과 관계 없이 평균 만족도는 들쑥날쑥한 편입니다. 여성 분들은 프레젠테이션 기간이 20인 경우 가장 만족스러워하셨고 5인 경우에 가장 불만족스러워 하셨습니다. 남성 분들은 5일인 경우 가장 만족스러워하셨고, 29일인 경우 가장 불만족스러워 하셨습니다. 남성 분들은 짧게 하는 것이 만족도가 높은 편이고, 여성 분들은 짧은 것보다 긴 편을 더 선호하셨습니다.

영업 사원 평균 만족도는 3.0642201834862384 입니다.
영업 사원의 평균 후속 조치 수는 3.7128980032379926 입니다.

평균 만족도는 약 3.06 정도 되고, 후속 조치 수는 약 3.67 번 정도 되는 편입니다. 각각의 전체적인 분포를 알아볼 수 있습니다.

4-9. 영업 사원이 제공하는 프레젠테이션 기간에서의 평균 만족도와 평균 후속 조치수의 분포 알아보기.

기간 20 이후에는 평균 만족도와 평균 후속 조치수가 대체로 비슷한 경향으로 (33 ~ 35 사이 제외) 가고 있습니다. 예를 들면 평균 만족도가 높을 때에 평균 후속 조치 수가 높은 편에 속하고 있습니다. 20 이전에는 딱히 그런 경향성을 보이지는 않습니다. 그리고 전체적으로 평균 만족도 보다 후속 조치수의 평균이 더 높음을 알 수 있습니다.

4-10. 여권 보유 여부와 자동차 보유 여부와 여행 패키지 신청 여부 알아보기.

여권은 보유하지 않은 경우가 더 많았고, 자동차는 보유한 경우가 더 많았습니다. 그리고 여행 패키지는 신청하지 않은 사람들이 더 많았습니다. 여권을 보유하지 않은 경우가 많은 것으로 보아, 국내 여행이 활발하게 이루어짐을 알 수 있고, 자동차를 보유한 경우가 많은 것으로 보아, 자동차를 이용해서 여행하는 사람들이 많았을 것으로 추정됩니다.

직업 간 여권 보유 여부, 자동차 소유 여부, 여행 패키지 신청 여부로 백분율을 따져보았을 때, 딱히 별 다른 경향성을 띄지 않습니다. 직업 별로 여권, 자동차 보유 여부와 여행 패키지 신청 여부가 정해지진 않습니다.

4-11. 여행 횟수와 관련하여 다수 이용 고객 알아보기.

연간 평균 여행 횟수가 1 ~ 3회 인 경우가 많은 비율을 차지하고 있습니다.

샐러리맨, 대규모 사업가, 소규모 사업가 모두 평균 연간 여행 횟수는 2회가 가장 많았습니다.

4-12. 주거 도시 등급과 선호 호텔 숙박 업소 등급 간의 관련성 알아보기.

좋은 동네에 사는 사람들이 많이 여행을 떠났음을 알 수 있습니다.

주거 도시 등급과 선호 호텔 숙박 업소 등급은 관련성이 없어보입니다. 좋은 동네에 사는 사람들도 3.0을 압도적으로 더 선호하고 있습니다. 하지만 2,3 등급과 다르게 4.0 보다 5.0을 더 선호하는 주거인들이 많습니다.

5. Review

  1. 여행가는 사람들에 관하여...
  • 프리랜서는 30 ~ 40 대 남성 1명입니다.
  • 여행가는 사람 수 : 샐러리맨 > 소규모 사업가 > 대규모 사업가 > 프리랜서
  • 10대 후반 ~ 60 대 초반까지 몰려있지 않고, 퍼져있습니다.
  • 샐러리맨, 소규모 사업가, 대규모 사업가 모두 남성이 여성보다 많습니다.
  • 대부분 15000 이상 ~ 40000 미만의 월급을 받는 사람들이고, 남녀 별 직업 별로 바라보았을 때 몰려있지 않습니다.
  • 이상점 3개가 발견되는데, 월 90000 이상 버시는 샐러리맨 여성분 2명과 월 1000 버는 대규모 사업가 여성분 1명이 계십니다.
  • 20000 이상 40000 이하 버는 사람들을 보면, 남성의 비율이 여성의 비율 보다 큽니다.
  1. 상품에 관하여...
  • Basic > Deluxe > Standard > Super Deluxe > King 순으로 영업 사원에게 상품을 많이 제시받습니다.
  • 샐러리맨, 대규모 사업가, 프리랜서는 Basic을 많이 제시받고, 소규모 사업가는 Basic과 Deluxe를 많이 제시받습니다.
  • 월급의 관점으로 바라보았을 때 Basic < Deluxe < Standard < Super Deluxe < King 의 관계를 가지고 있습니다.
  • 직급의 관점으로 바라보았을 때 Basic : Excutive, Deluxe : Manager, Standard : Senior Manager, Super Deluxe : AVP, King : VP 로 연결되어 있습니다. 즉 직급과 월급은 관련성이 있음을 알 수 있고, 월급이 높은 사람들이 제시받는 상품은 비싼 상품일 가능성이 높습니다.
  • 아이 유무와 관계 없이 비혼이면 Deluxe를 많이 제시하고, 나머지는 Basic을 많이 제시하였습니다.
  1. 상품 인지 방법에 관하여...
  • 직접 찾아본 건수가 압도적으로 많았습니다.
  1. 제공 PPT 기간에 관하여...
  • 9 가 가장 많았고, 5 가 가장 적었습니다. 평균 기간을 약 15입니다.
  • 대부분 평균 만족도는 2.5 ~ 4.0 사이 입니다. 여성은 제공 PPT 기간이 긴 경우 만족도가 더 높았고, 남성은 제공 PPT 기간이 짧은 경우 만족도가 더 높았습니다.
  • 대체로 만족도 < 후속 조치 수 입니다. 20 이후에는 만족도와 후속 조치 수가 비슷한 경향으로 가고 있습니다. (예를 들면, 만족도가 올라가는 경향을 띄면 후속 조치수도 올라가는 경향을 띈다.)
  1. 여권, 자동차, 여행 패키지 신청에 관하여...
  • 여권은 보유하지 않은 경우가 많고, 자동차는 보유한 경우가 많았습니다. 또한 여행 패키지는 신청하지 않은 경우가 더 많았습니다.
  • 여권을 보유하지 않은 경우가 더 많은 것으로부터 국내 여행이 많았음을 알 수 있고, 자동차 보유한 경우가 많은 것으로부터 여행 이동 수단으로 자동차를 많이 이용함을 알 수 있습니다.
  1. 여행 횟수에 관하여...
  • 연 1 ~ 3회인 경우가 많았습니다. 그래서 그 부분만 다시 떼어서 살펴보니, 샐러리맨, 대규모 사업가, 소규모 사업가 모두 연 2회인 경우가 가장 많았습니다.
  1. 주거 도시 등급과 선호 호텔 숙박 등급에 관하여...
  • 1 등급에 사는, 즉 좋은 동네에 사는 사람들이 여행을 많이 떠나는 편입니다.
  • 1, 2, 3 등급 모두 3.0 을 가장 많이 선호하였습니다. 하지만 1등급은 3.0 > 5.0 > 4.0 순으로 선호하였습니다.
  • 주거 도시 등급과 선호 호텔 숙박 등급은 관련성이 없습니다.

수상 인증서

profile
알고리즘과 데이터 과학과 웹 개발을 공부하는 대학생

0개의 댓글