[TIL Day14] Python으로 데이터 다루기 II - Pandas

이다혜·2021년 5월 5일
0

TIL

목록 보기
15/60

Python으로 데이터 다루기 II - Pandas

Pandas 시작하기

Pandas로 1차원 데이터 다루기 - Series

  • Series?
    - 1-D labeled array
    - 인덱스를 지정해줄 수 있음

  • Series + Numpy
    - series는 ndarray와 유사하다!
  • Series + Dict
    - series는 dict와 유사하다
  • Series에 이름 붙이기
    - name 속성을 가지고 있음
    - 처음 series를 만들 때 이름을 붙일 수 있음

Pandas로 2차원 데이터 다루기 - Dataframe

Pandas의 Dataframe

  • dataframe?
    - 2-D labeled table
    - 인덱스를 지정할 수도 있음

  • From CSV to dataframe
    - csv(comma seperated value)를 dataframe으로 생성해줄 수 있다.
    - .read_csv()를 이용

  • Pandas 활용 1. 일부분만 관찰하기
    - head(5): 처음 n개의 데이터 참조
    - tail(5): 마지막 n개의 데이터 참조

  • Pandas 활용 2. 데이터 접근하기
    - df['column_name'] or df.column_name
    - column name에 띄어쓰기가 있는 경우엔 후자를 쓰지 못함

  • Honey Tip! Dataframe의 각 column은 "Series"다!

  • Pandas 활용 3. "조건"을 이용해서 데이터 접근하기

  • Pandas 활용 4. 행을 기준으로 데이터 접근하기

    - 인덱스를 이용해서 가져오기: .loc[row, col]

    - 숫자 인덱스를 이용해서 가져오기: .iloc[row_idx, col_idx]

  • Pandas 활용 5. groupby
    - Split: 특정한 "기준"을 바탕으로 DataFrame을 분할
    - Apply: 통계함수 - sum(), mean(), median(), - 을 적용해서 각 데이터를 압축
    - Combine: Apply된 결과를 바탕으로 새로운 Series를 생성 (group_key : applied_value)

profile
하루하루 성장중

0개의 댓글