Pandas (3)

Tino-Kim·2022년 1월 3일

🥴 Pandas (3)

외부 파일은 링크 주소를 이용해서 파일을 불러올 수 있다.

df = pd.read_csv('http://bit.ly/ds-korean-idol')
df
# 공공데이터포털에 있는 파일의 주소를 이용해서 파일을 불러온다

📌 기본 정보

💛 Columns

df.columns 
# columns 정보를 알 수 있다
new_col 이라는 변수에 새로운 칼럼명을 담은 리스트를 할당해주고, 
새로 정의하면 칼럼명을 새롭게 변경할 수 있다

💛 Index

df.index
# index의 range를 알 수 있다

💛 Info

df.info()

1. df에서 몇 개의 값이 누락되었는지 알 수 있다.
1. 각 칼럼마다의 데이터 타입을 확인할 수 있다.

📌 통계 정보

df.describe()

대략적인 df의 수치적인 정보를 알 수 있다.
ex. 평균, 중앙값, 상위 25% 등등

📌 형태 확인하기

💛 형태 확인하기

df.shape

💛 앞과 뒤의 일부만 확인하기

df.head() # default는 5개이다.
df.tail() # default는 5개이다.
# 소괄호 안에는 내가 보고 싶은 데이터의 개수를 적어주면 된다.

📌 정렬하기

💛 오름차순 정렬하기

df.sort_index()

💛 내림차순 정렬하기

df.sort_index(ascending = False)

그렇다면 Value 기준으로 정렬하였을 때에는 어떤 값을 기준으로 정렬하는가? > 바로 by라는 keyword와 칼럼명을 이용해서 DataFrame을 정렬할 수 있다.

💛 칼럼 별로 오름차순 정렬하기

df.sort_values(by = '정렬 기준으로 세우고 싶은 칼럼명')

💛 칼럼 별로 내림차순 정렬하기

df.sort_values(by = '정렬 기준으로 세우고 싶은 칼럼명', ascending = False)

💛 복수 정렬하기

어떤 기준이 동일한 경우, 다른 기준을 쓰고 싶은 경우에 복수 정렬을 이용한다.
리스트를 이용해서 묶어주는데, 순서가 중요하다~!

df.sort_values(by=['첫번째 기준인 칼럼명', '두번째 기준인 칼럼명'])

😀 마무리...

columns

index

info( )

describe( )

shape

head( )

tail( )

sort_index( )

sort_index(ascending = False)

sort_values(by)

sort_values(by, ascending = False)

sort_values(by = ['첫번째 기준', '두번째 기준'])

Tino-Kim

알고리즘과 데이터 과학과 웹 개발을 공부하는 대학생

이전 포스트

Pandas (2)

다음 포스트