외부 파일은 링크 주소를 이용해서 파일을 불러올 수 있다.
df = pd.read_csv('http://bit.ly/ds-korean-idol')
df
# 공공데이터포털에 있는 파일의 주소를 이용해서 파일을 불러온다
df.columns # columns 정보를 알 수 있다 new_col 이라는 변수에 새로운 칼럼명을 담은 리스트를 할당해주고, 새로 정의하면 칼럼명을 새롭게 변경할 수 있다
df.index # index의 range를 알 수 있다
df.info()
df.describe()
대략적인 df의 수치적인 정보를 알 수 있다.
ex. 평균, 중앙값, 상위 25% 등등
df.shape
df.head() # default는 5개이다. df.tail() # default는 5개이다. # 소괄호 안에는 내가 보고 싶은 데이터의 개수를 적어주면 된다.
df.sort_index()
df.sort_index(ascending = False)
그렇다면 Value 기준으로 정렬하였을 때에는 어떤 값을 기준으로 정렬하는가? > 바로 by라는 keyword와 칼럼명을 이용해서 DataFrame을 정렬할 수 있다.
df.sort_values(by = '정렬 기준으로 세우고 싶은 칼럼명')
df.sort_values(by = '정렬 기준으로 세우고 싶은 칼럼명', ascending = False)
어떤 기준이 동일한 경우, 다른 기준을 쓰고 싶은 경우에 복수 정렬을 이용한다.
리스트를 이용해서 묶어주는데, 순서가 중요하다~!
df.sort_values(by=['첫번째 기준인 칼럼명', '두번째 기준인 칼럼명'])
- columns
- index
- info( )
- describe( )
- shape
- head( )
- tail( )
- sort_index( )
- sort_index(ascending = False)
- sort_values(by)
- sort_values(by, ascending = False)
- sort_values(by = ['첫번째 기준', '두번째 기준'])