dataframe의 각 열은 series이다. -> series의 기능을 쓸 수 있음
- 리스트 value를 가진 사전을 만든다.
a_dict = {"a":[True,True,False], "b":[102,215,323], "c" : ["pro","math","physics"]}- 그 후 기호에 따라 행 이름을 리스트로 적어 pandas.DataFrame 메소드에 인자로 넣는다.
pandas.DataFrame(a_dict, index = ['대출여부', '위치', '장르'])
covid = pd.read_csv("./country_wise_latest.csv")
a.tail(n) : 아래서 n개
a.head(n) : 위에서 n개
a.['열 이름']
ora.열이름
: 특정 열 보기
a[인덱스]
>> 열 인덱스로 부르기
a.loc[인덱스]
>> 행 인덱스로 부르기
a.loc[row,col]
>> 행, 열 인덱스로 부르기
예시) books_df.loc["미분해줘 홈즈", "Available"]
a.iloc[row_index, col_index]
>> 숫자 인덱스로 부르기 (0부터)
(index location)
예시)a.iloc[0, 0:2]
covid['WHO Region'].unique()
>> 특정 열에 어떤 종류의 데이터가 있는지 리스트로 보여주기
covid['Deaths / 100 Cases'].sort_values()
covid.sort_values(by=['Deaths / 100 Cases'])
covid.sort_values(by=['Deaths / 100 Cases'], ascending=False)
ascending=False >> 내림차순
covid[covid['New cases'] > 100]
covid[covid['WHO Region'] == 'South-East Asia']
Split : 특정 기준으로 DataFrame을 분할
Apply : 통계함수 - sum(), mean(), median() -을 적용해서 각 데이터를 압축
Combine : apply된 결과로 새로운 Series를 생성
Split >> 데이터 가공
- 특정 열을 뽑는다.
- 해당 열에서 ~을 기준으로 groupby 한다.
covid['Confirmed'].groupby(by=covid["WHO Region"])
covid['Confirmed']
: 특정 열 추출
groupby(by=covid["WHO Region"])
해당 열에서 "WHO Region"의 데이터를 기준으로 그룹화
Apply >> 데이터 활용
mean() : 평균
sum() : 합
median() : 중간값
a.sum()
a.mean()
combine >> series 형태로 바꾸기