
: 행과 열로 이루어진 데이터들의 처리를 지원하는 라이브러리

시리즈 생성하기
import pandas as pd
# 방법1. 리스트를 이용하여 시리즈 생성
## 인덱스 지정 안하면, 인덱스번호 자동 생성
s = pd.Series([값1,값2,...], index=[인덱스1,인덱스2,...])
# 방법2. 딕셔너리를 이용하여 시리즈 생성
s = pd.Series({'인덱스1':값1, '인덱스2':값2, ...})
type(s) #pandas.core.series.Series
시리즈 이름, 인덱스 이름 지정
시리즈.name = ‘시리즈이름’ : 시리즈 이름 설정시리즈.index.name = ‘인덱스이름’ : 인덱스 이름 설정시리즈.index = 리스트 : 인덱스 변경데이터 변경/추가/삭제
시리즈['인덱스'] = 값 : 데이터 변경시리즈['새인덱스'] = 새값 : 데이터 추가del 시리즈['인덱스'] : 데이터 삭제시리즈 연산
시리즈 인덱싱, 슬라이싱
시리즈[인덱스 번호] 또는 시리즈[인덱스명]시리즈[인덱스 처음번호 : 끝번호] (끝번호 포함x) 또는 시리즈[인덱스 처음이름 : 끝이름] (끝이름 포함)import pandas as pd
# 방법1. 리스트를 이용하여 데이터프레임 생성
## 설정한 위치 그대로 생성
p = pd.DataFrame([[값11,값12,...],
[값21,값22,...],
...],
index=[인덱스1, ...],
columns=[칼럼명1, ...])
# 방법2. 딕셔너리를 이용하여 데이터프레임 생성
## 각 칼럼에 대한 데이터가 위에서 아래로 생성
p = pd.DataFrame({'칼럼1':[값들,...], '칼럼2':[값들,...]},
index = [인덱스1,,,])데이터프레임.T : 전치행렬 (행.열 전환)pd.read_csv(’파일경로/파일이름.확장자’, encoding='인코딩방식', index_col='인덱스로 사용할 컬럼명') : csv파일을 불러와서 데이터프레임으로 출력encoding = ‘cp949’ 또는 ‘euc-kr’ : 한글 문자 전용 인코딩 방식index_col = ‘칼럼명’ : 인덱스 컬럼 설정데이터프레임['새로운칼럼명'] = [값들] : 새로운 칼럼 추가del 데이터프레임명['칼럼명'] : 칼럼(열) 삭제데이터프레임명.drop('인덱스/칼럼 이름', axis=0, inplace=False) : 행 또는 열 삭제데이터프레임.shape : 행,열 개수 확인데이터프레임.values : 데이터프레임의 데이터 값만 확인데이터프레임.index : 인덱스만 확인데이터프레임.columns : 컬럼명만 확인데이터프레임[칼럼명] : 열 인덱싱 (시리즈 형태)데이터프레임[[칼럼명들]] : 열 인덱싱 (데이터프레임 형태)데이터프레임[처음 인덱스 번호/이름 : 끝 인덱스 번호/이름] : 행 인덱싱 (슬라이싱 문법 사용!!)데이터프레임명.loc[행이름[, 열이름]]데이터프레임명.iloc[행번호[, 열번호]]df[df[’점수’]==0] : 점수 칼럼이 0인 데이터데이터프레임.sort_index(axis=0, ascending=True) : index 또는 칼럼 기준 정렬데이터프레임.sort_values(by='칼럼명', axis=0, ascending=True) : 값 기준 정렬데이터프레임.sum/mean/max/min/count(axis=0) : 합계/평균/최대/최소/개수데이터프레임.info() : 데이터프레임에 대한 전체적인 정보 출력데이터프레임.value_counts() : 특정 칼럼에 있는 데이터들의 유니크 값과 그 개수들 출력데이터프레임.apply(적용할 함수, axis=0) : 행 또는 열에 복잡한 처리 및 연산을 한 번에 진행해주는 함수pd.concat([병합할 시리즈/데이터프레임들], axis = 0) : Series나 DataFram을 병합데이터프레임.groupby('칼럼명') : 데이터를 그룹별로 묶어서 집계를 낼 수 있게 해주는 함수