day3 Pandas Dataframe

‍김혜은·2022년 1월 15일
0

22winter_AI_bootcamp

목록 보기
10/15

dataframe의 각 열은 series이다. -> series의 기능을 쓸 수 있음

Dataframe 생성

  • 리스트 value를 가진 사전을 만든다.
    a_dict = {"a":[True,True,False], "b":[102,215,323], "c" : ["pro","math","physics"]}
  • 그 후 기호에 따라 행 이름을 리스트로 적어 pandas.DataFrame 메소드에 인자로 넣는다.
    pandas.DataFrame(a_dict, index = ['대출여부', '위치', '장르'])

Dataframe 열기

covid = pd.read_csv("./country_wise_latest.csv")

a.tail(n) : 아래서 n개
a.head(n) : 위에서 n개

특정 열, 행 부르기

a.['열 이름'] or a.열이름 : 특정 열 보기
a[인덱스] >> 열 인덱스로 부르기
a.loc[인덱스] >> 행 인덱스로 부르기
a.loc[row,col] >> 행, 열 인덱스로 부르기
예시) books_df.loc["미분해줘 홈즈", "Available"]
a.iloc[row_index, col_index] >> 숫자 인덱스로 부르기 (0부터)
(index location)
예시) a.iloc[0, 0:2]
covid['WHO Region'].unique() >> 특정 열에 어떤 종류의 데이터가 있는지 리스트로 보여주기

정렬하기

covid['Deaths / 100 Cases'].sort_values()
covid.sort_values(by=['Deaths / 100 Cases'])
covid.sort_values(by=['Deaths / 100 Cases'], ascending=False)
ascending=False >> 내림차순

조건문으로 특정 열 보기

covid[covid['New cases'] > 100]
covid[covid['WHO Region'] == 'South-East Asia']

groupby

Split : 특정 기준으로 DataFrame을 분할
Apply : 통계함수 - sum(), mean(), median() -을 적용해서 각 데이터를 압축
Combine : apply된 결과로 새로운 Series를 생성

  • Split >> 데이터 가공

    1. 특정 열을 뽑는다.
    2. 해당 열에서 ~을 기준으로 groupby 한다.
      covid['Confirmed'].groupby(by=covid["WHO Region"])
      covid['Confirmed'] : 특정 열 추출
      groupby(by=covid["WHO Region"]) 해당 열에서 "WHO Region"의 데이터를 기준으로 그룹화
  • Apply >> 데이터 활용

    mean() : 평균
    sum() : 합
    median() : 중간값
    a.sum() a.mean()

  • combine >> series 형태로 바꾸기

profile
R=VD 다양한 도구를 갖춘 상태에서 다방면으로 문제를 인식하고 상황에 맞는 최적의 솔루션을 낼 수 있는 개발자

0개의 댓글

관련 채용 정보