Pandas 시작하기




Pandas의 Dataframe
dataframe?
- 2-D labeled table
- 인덱스를 지정할 수도 있음

From CSV to dataframe
- csv(comma seperated value)를 dataframe으로 생성해줄 수 있다.
- .read_csv()를 이용

Pandas 활용 1. 일부분만 관찰하기
- head(5): 처음 n개의 데이터 참조
- tail(5): 마지막 n개의 데이터 참조

Pandas 활용 2. 데이터 접근하기
- df['column_name'] or df.column_name
- column name에 띄어쓰기가 있는 경우엔 후자를 쓰지 못함

Honey Tip! Dataframe의 각 column은 "Series"다!

Pandas 활용 3. "조건"을 이용해서 데이터 접근하기


Pandas 활용 4. 행을 기준으로 데이터 접근하기

- 인덱스를 이용해서 가져오기: .loc[row, col]

- 숫자 인덱스를 이용해서 가져오기: .iloc[row_idx, col_idx]

Pandas 활용 5. groupby
- Split: 특정한 "기준"을 바탕으로 DataFrame을 분할
- Apply: 통계함수 - sum(), mean(), median(), - 을 적용해서 각 데이터를 압축
- Combine: Apply된 결과를 바탕으로 새로운 Series를 생성 (group_key : applied_value)
