오늘은 강의가 아니고 이번주에 배운 내용인 Pandas를 이용한 통계작성과 Matplotlib로 그래프를 그리는 실습 활동을 했다.
호주니는 요즘 넷플릭스를 보는데 심취해있다. 최근 넷플릭스와 협업하는 K-Contents가 늘어가는 것을 보면서 자부심을 느끼는 한편, 넷플릭스에 얼마나 많은 한국 작품이 있는지 궁금해졌다. 호주니를 도와 넷플릭스에 얼마나 많은 한국 작품이 있는지 알아보자.
넷플릭스 데이터(https://www.kaggle.com/shivamb/netflix-shows)가 주어졌을 때, 다음 질문에 답하시오
전 수업에서 pandas의 사용법을 익히던중 Dataframe의 특정한 series의 종류를 .unique() 함수로 정리 할 수 있다는 것을 배웠다. 이번엔 나아가서 .value_counts()를 사용해보았다.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
nf = pd.read_csv("./netflix_titles.csv")
covid = pd.read_csv("./country_wise_latest.csv")
nf['country'].value_counts()
->
United States 2818
India 972
United Kingdom 419
Japan 245
South Korea 199
이번에는 groupby를 사용해서 country별로 group을 지어주었다. 아쉽게도 여러 국가에서 합작해서 만든 프로그램이 많다보니 group의 종류가 많아졌다. 하지만 단일 국가에서 제작한 프로그램이 압도적으로 많았기 때문에 .count()를 이용해서 show_id로 정렬해주니 최대 제작국가를 찾을 수 있었다.
nf_by_country = nf.groupby('country')
nf_by_country.count().sort_values(by='show_id', ascending=False).head(1)
->
show_id type title director cast date_added release_year rating duration listed_in description
country
United States 2818 2818 2818 2048 2488 2812 2818 2818 2815 2818 2818
서울의 소시민 나일론 마스크는 요즘 가상화폐에 푹 빠져있다. 매일매일 극락과 지옥을 오가는 매운맛에 정신을 못 차리고 있는데, 그의 친구인 호주니는 그에게 정신차리게 하기 위해 비트코인 광풍이 일었던 2017년 한 해의 가격의 변화를 보여주려고 한다. 그런데 매일매일의 데이터를 보여주는 것보다 이것의 추세를 표현해주면 좋겠다는 생각이 들어 Moving Average(이동평균법) 를 도입하고자 한다. 호주니를 도와 마스크씨를 설득해보자.
다음 데이터(https://www.kaggle.com/rishidamarla/bitcoin-prices-20112015)가 주어졌을 때 2016.6 ~ 2017.6 기간의 5-MA(Moving Average) 비트코인 가격 그래프를 그려주세요.
1.선의 색깔은 노란색(#f2a900) 으로 해야합니다.
2.x-axis label과 y-axis label은 적절한 텍스트로 추가되어야 합니다.
3.이동평균의 기준은 Open Column으로 계산합니다.
4.이외에도 그래프를 알아보기 쉽게 하기 위한 정보(Text, Facet 등)을 추가하는 것도 좋습니다.
💡 이동평균(Moving Average)법은 시계열 데이터를 표현하는 데에 많이 사용하는 방법 중 하나입니다.
위에 주어진 데이터와 더불어 다음 데이터(https://www.kaggle.com/prasoonkottarathil/ethereum-historical-dataset?select=ETH_day.csv)도 주어졌을 때, 2016.6 ~ 2017.6 기간에 해당하는 비트코인의 5-MA 그래프와 이더리움의 5-MA 그래프를 동시에 그려주세요.
1.선의 색깔은 비트코인 : 노란색(#f2a900), 이더리움 : 검은색(#3c3c3d) 으로 해야합니다.
2.x-axis label과 y-axis label은 적절한 텍스트로 추가되어야 합니다.
3.이동평균의 기준은 Open Column으로 계산합니다.
4.이외에도 그래프를 알아보기 쉽게 하기 위한 정보(Text, Facet 등)을 추가하는 것도 좋습니다.