- Python에서 R만큼의 강력한 데이터 핸들링 성능을 제공하는 모듈이다.
- 단일 프로세스에서는 최대 효율을 낸다.
- 마치 코딩이 가능하고 응용 가능한 Excel 같다.
- 한글은 encoding 설정이 필수이다.
- Pandas는 통상 pd로 import한다.
- Pandas의 데이터형을 구성하는 기본은 Series이다.
- 날짜(시간)를 이용할 수 있다.
- Pandas에서 가장 많이 사용하는 데이터형은 DataFrame으로 index와 columns를 지정하면 된다.
- df
-df[condition]과 같이 사용하는 것이 일반적
-Pandas의 버전에 따라 조금씩 허용되는 문법이 다름
-인터넷에서 확보한 소스코드를 돌릴 때는 Pandas의 버전을 확인하는 것이 필요
-데이터 변수에서 바로 plot() 명령을 사용 가능
-데이터(컬럼)가 많은 경우, 정렬한 후 그리는 것이 효과적일 때가 있음
- df.head()
-앞 부분 5개의 데이터 확인
- df.info()
-DataFrame의 기본 정보 확인 (보통 각 컬럼의 크기와 데이터 형태를 확인하는 경우가 많음)
- df.describe()
-DataFrame의 통계적 기본 정보를 확인
- df.sort_values()
-데이터를 정렬
- df["컬럼명"]
-특정 컬럼만 읽기
- df[n:m]
-n부터 m-1까지
-단 index나 column의 이름으로 slice하는 경우는 끝을 포함
- df.loc[:, ["A", "B"]]
-이름으로도 사용 가능
-Pandas의 보편적인 slice 옵션
- df.iloc[숫자]
-iloc 옵션을 이용해서 번호로만 접근
- df["컬럼명"].isin(["특정요소1", "특정요소2"])
-특정 요소가 있는지 확인
- df[df["컬럼명"].isin(["특정요소1", "특정요소2"])]
-특정 요소가 있는 행만 선택
- df.apply(np.cumsum)
-각 컬럼 누적합
- del df["컬럼명"]
-특정 컬럼 제거
- index를 여러 개 지정할 수 있다.
- values를 지정할 수 있다.
- values에 함수를 적용할 수 있다.
- default는 평균이다.
- aggfunc 옵션은 합산 등의 다른 함수를 적용하거나 개수를 적용할 때(len) 사용한다.
- columns는 분류를 지정한다.
- fill_value로 NaN에 대한 처리를 지정할 수 있다.
- mergins으로 합계를 지정할 수 있다.
Pandas에 잘 맞춰진 반복문용 명령어다.
Pandas DataFrame은 대부분 2차원으로 for문을 사용하려면 n번째라는 지정을 반복해서 가독률이 떨어진다. 그래서 Pandas로 DataFrame으로 반복문을 만들 때 iterrows()라는 옵션을 사용하면 편리하다.
단, 받을 때, Index와 내용으로 나누어 받는 것을 주의해야한다.
- 통상 csv는 띄어쓰기로 구분이 되므로 read_csv 명령으로 읽기만 해도 된다.
* 이 글은 제로베이스 데이터 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.