
import pandas as pd
movie_df = pd.read_csv('imdb_top_1000.csv')
movie_df = pd.DataFrame(movie_df)
movie_df

아래 순서로 열이 정렬되어야 된다.

movie_df = movie_df[['Genre','Series_Title','Released_Year','IMDB_Rating','Meta_score','Director','No_of_Votes','Gross']]
movie_df

cols = ['Genre','Series_Title','Released_Year','IMDB_Rating','Meta_score','Director','No_of_Votes','Gross']
movie_df = pd.read_csv('imdb_top_1000.csv', usecols =cols)
movie_df = movie_df[cols]
각 dtype과 null 여부를 확인한다.
movie_df.info()

movie_df.value_counts('Genre').head(5)

Meta_score는 NA여도 삭제하지 않는다.
movie_df = movie_df.dropna(subset='Gross')
movie_df

movie_df['Meta_score'].mean()

부연설명

mean() 의 인자 중 skipna= 의 기본 값은 True이기 때문에 결측값은 빼고 가져옴.
힌트 : 현재 수익을 나타내는 Gross의 dtype을 주의하자
힌트 : 문자열은 크기 정렬이 안된다.
1.먼저 콤마를 제거 해준다.
movie_df['Gross'] = movie_df['Gross'].str.replace(',','')
movie_df

2.astype() 을 이용해서 타입을 정수형으로 변환
movie_df['Gross'] = movie_df['Gross'].astype('int64')
movie_df.info()

3.수익이 가장많은 영화 찾기
movie_df.nlargest(n = 1, columns='Gross')

movie_df.nlargest(n = 10, columns='Gross')

내가 푼 코드는 이건데 아마 아닌것 같다.. 그래도 정답은 나옴.
a = movie_df.nlargest(n = 100, columns='Gross')
a.value_counts('Genre')

대박… 이렇게 써도 되는구나..
movie_df.nlargest(n = 100, columns='Gross').value_counts('Genre')

movie_df.nsmallest(n = 1, columns='Gross')

movie_df.nsmallest(n = 10, columns='Gross')

movie_df.describe()

movie_df.describe(include = 'O')

movie_df.describe(include = 'all')

movie_df.set_index('Series_Title', inplace =True)
movie_df.index.name = 'Title'
