import
: 모듈을 사용하기 위한 명령pandas
사용read_csv
: csv 파일을 읽는 명령encoding='utf-8'
옵션을 사용import pandas as pd
# .. : 부모 디렉터리
# . : 현재 디렉터리
CCTV_Seoul = pd.read_csv("../data/01. Seoul_CCTV.csv", encoding="utf-8")
# 데이터의 상위 5개 데이터
# 데이터의 개수를 입력하여 원하는 만큼 볼 수 있다.
CCTV_Seoul.head()
# 데이터의 하위 5개 데이터
# 데이터의 개수를 입력하여 원하는 만큼 볼 수 있다.
# CCTV_Seoul.tail()
columns
, columns[인덱스]
rename(columns={컬럼 : 변경할 이름}
inplace 옵션
: 작업을 진행한 데이터를 새 데이터로 반환할 지 현재 데이터에 적용할지 설정# 컬럼명 확인
CCTV_Seoul.columns
CCTV_Seoul.columns[0]
# 컬럼명 변경
CCTV_Seoul.rename(columns={CCTV_Seoul.columns[0] : "구별"}, inplace=True)
read_excel
: 엑셀 파일을 읽는 명령pop_Seoul = pd.read_excel("../data/01. Seoul_Population.xls")
pop_Seoul.head()
# 헤더와 사용할 컬럼 지정('계' 컬럼들만 사용)
pop_Seoul = pd.read_excel(
"../data/01. Seoul_Population.xls", header=2, usecols="B, D, G, J, N"
)
pop_Seoul.head()
pop_Seoul.rename(
columns={
pop_Seoul.columns[0] : "구별",
pop_Seoul.columns[1] : "인구수",
pop_Seoul.columns[2] : "한국인",
pop_Seoul.columns[3] : "외국인",
pop_Seoul.columns[4] : "고령자",
},
inplace=True,
)
pd
로, 수치해석적 함수가 많은 numpy는 np
로 importimport pandas as pd
import numpy as np
index
와 value
로 구성s = pd.Series([1, 3, 5, np.nan, 6, 8])
# 딕셔너리
pd.Series({"Key":"Value"})
dates = pd.date_range('20130101', periods=6)
index
, column
, value
로 구성Series
로 구성data = np.random.randn(6, 4)
df = pd.DataFrame(data, index=dates, columns=["A", "B", "C", "D"])
df.index
df.columns
df. values
describe
: DataFrame의 기술통계 정보sort_values(by=컬럼, ascending=Bool)
df.sort_values(by="B", ascending=False)
df[n:m]
loc[행, 열]
: locationiloc[행, 열]
: index명, column명 대신 인덱스를 활용하여 행과 열을 선택하는 함수df[조건]
df[컬럼명]=[값]
isin()
: 특정 요소가 있는지 확인del df["컬럼"]
: 컬럼 삭제drop("컬럼 또는 인덱스", axis = 값)
: axis 값에 따라 행 또는 열 삭제apply()
: 원하는 계산 수행apply(np.cumsum)
: 각 컬럼 값 누적합