사용 데이터: 캐글/스포티파이 사용자 행동 데이터
12-20세 이용자의 콘텐츠별 팟캐스트 선호 길이 데이터 전처리 및 시각화
엑셀 파일을 판다스 데이터프레임으로 불러오기
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_excel('./Spotify_data.xlsx')
df = pd.DataFrame(data)
팟캐스트 선호 길이 데이터 전체 결측치 확인하기
preffered_pod_duration
, 팟캐스트 선호 길이 컬럼 전체에서 결측치가 129개 있다는 것을 확인했다.팟캐스트 선호 길이 데이터 중 12-20세 데이터 선택해서 총 개수 확인하기
Age
컬럼의 12-20세 이용자를 data_teens 라고 정의했다..loc
메서드를 이용해 12-20 이용자의 팟캐스트 선호 길이 데이터를 teens_duration 이라 정의했다.12-20세 팟캐스트 선호 길이 결측치 확인하기
음악을 선호하는 12-20세의 팟캐스트 선호 길이 결측치 확인하기
Age
가 12-20이고, preferred_listening_content
를 Music 으로 선택한 데이터를 data_teens_music 이라고 정의했다.음악을 선호하는 12-20세의 팟캐스트 선호 길이 결측치 처리하기
영어 데이터값 한글 데이터값으로 바꾸기
.replace
메서드를 이용해 영어 값을 한글로 변경하고 값을 확인했다.preffered_pod_duration
컬럼에 관한 설명이 '짧은 팟캐스트 에피소드(30분 미만) 또는 긴 에피소드(30분 이상)를 선호합니까?' 이기에 'Longer'는 '30분 이상', 'Shorter'는 '30분 미만', 'Both'는 '상관없음'으로 번역했다.팟캐스트를 선호하는 12-20세의 팟캐스트 선호 길이 결측치 확인하고 처리하기
Age
가 12-20이고, preferred_listening_content
를 Podcast 로 선택한 데이터를 data_teens_pod 이라고 정의했다..dropna()
를 이용해서 결측치를 처리하는 과정이 필요하지 않았을까싶다.영어 데이터값 한글로 바꾸기
.replace
메서드를 이용해 영어 값을 한글로 변경하고 값을 확인했다.음악 위주로 스포티파이를 사용하는 10대 이용자
df_music.value_counts()
pod_duration_music = df_music.value_counts()
pod_duration_music
# 한글 폰트 설정
plt.rc('font', family= 'Malgun Gothic')
plt.pie(pod_duration_music, labels = pod_duration_music.index
, autopct = '%1.1f%%' #autopct= '%1.1f%% : 비율 소수점 첫째자리까지 표현
, startangle = 180 #시작점
, wedgeprops = {'width': 0.6} #도넛
, colors = ['#D6EFD8', '#508D4E', '#80AF81', '#c46262']
plt.title('음악 위주 Spotify 이용 10대 고객')
plt.legend(loc = (1.05, 0.65), title = '선호 길이 종류')
plt.show()
팟캐스트 위주로 스포티파이를 사용하는 10대 이용자
pod_duration_pod = df_pod.value_counts()
pod_duration_pod
plt.rc('font', family= 'Malgun Gothic')
plt.pie(pod_duration_pod, labels = pod_duration_pod.index
, autopct = '%1.1f%%'
, wedgeprops = {'width': 0.6}
, colors = ['#c46262', '#80AF81', '#508D4E']
, startangle=30)
plt.title('팟캐스트 위주 Spotify 이용 10대 고객')
plt.legend(loc = (1.25, 0.65), title = '선호 길이 종류')
plt.show()
음악 위주 | 팟캐스트 위주 |
---|---|
팟캐스트를 이용하지 않는 이용자의 조각은 연한 색상을 선택하고, 결과를 도출해낼 중요한 조각인 '30분 이상'은 붉은 색상을 선택했다.
시각화를 하는 과정에서 도넛의 크기, 테두리 색상, 범례의 위치, 그림자의 유무, 파이차트 조각내기 등 다양한 선택지가 있었다.
그중에서 데이터 해석의 오해를 불러오지 않으면서 적당한 시각화를 구현해보았다.