Pandas 시작하기
Pandas의 Dataframe
dataframe?
- 2-D labeled table
- 인덱스를 지정할 수도 있음
From CSV to dataframe
- csv(comma seperated value)를 dataframe으로 생성해줄 수 있다.
- .read_csv()
를 이용
Pandas 활용 1. 일부분만 관찰하기
- head(5)
: 처음 n개의 데이터 참조
- tail(5)
: 마지막 n개의 데이터 참조
Pandas 활용 2. 데이터 접근하기
- df['column_name']
or df.column_name
- column name에 띄어쓰기가 있는 경우엔 후자를 쓰지 못함
Honey Tip! Dataframe의 각 column은 "Series"다!
Pandas 활용 3. "조건"을 이용해서 데이터 접근하기
Pandas 활용 4. 행을 기준으로 데이터 접근하기
- 인덱스를 이용해서 가져오기: .loc[row, col]
- 숫자 인덱스를 이용해서 가져오기: .iloc[row_idx, col_idx]
Pandas 활용 5. groupby
- Split: 특정한 "기준"을 바탕으로 DataFrame을 분할
- Apply: 통계함수 - sum(), mean(), median(), - 을 적용해서 각 데이터를 압축
- Combine: Apply된 결과를 바탕으로 새로운 Series를 생성 (group_key : applied_value)