index(행), columns(열) → 각 문자 또는 숫자를 레이블(lable)이라 부름.
df = pd.read_csv('data_01.csv', index_col='date')
이렇게 인덱스를 지정하면 데이트 열이 인덱스가 된다.
loc : 글자로 검색 가능. 인덱스 번호나 칼럼명으로.
df.loc[:, 'x2':'x4']
2번째 열과 4번째 열 사이에 잇는 모든 칼럼 선택.
df2.loc[[30]].plot.bar()
30번째 칼럼에 있는 수치를 barplot으로
df.iloc[:, [1,2,6] ]
1,2,5 번 칼럼 선택. (칼럼은 0이 첫번째)
int형 (a = 1) → 정수
float 형 (a = 1.5) → 실수
str 형 (a = "supermoon" or a = 'abc') → 문자열
bool형 (True / False)
tuple형 (a=(1,2,3) or b=(2.) → 배열(수정 불가능)
ndarray형 (a = np.array([1,2,3])) → 행렬
판다스를 활용한 기본 EDA
df.head() #처음 5개의 데이터 확인
df.tail() #마지막 5개의 데이터 확인
df.shape #데이터 사이즈 확인 (행, 열 수)
df.info #칼럼별 데이터 타입 및 실제 데이터 사이즈 확인
df.columns #어떤 칼럼이 있는지
df.describe() #평균, 중간값 등 통계량 확인
df.isnull()
df.fillna()
isnull().sum() #null 개수를 알 수 있다.
df.to_csv('csv_new') #csv_new는 저장할 파일 이름