경로 내 파일 확인
import os
os.listdir()
파일 병합
pd.concat([df1, df2], ignore_index = True)
- df1, df2을 concat (행 기준으로 이어붙임) -> 컬럼이 같은 것끼리 아래로 붙여짐
- 열 기준으로 붙일 때에는, (..., axis=1) -> 옆으로 붙여짐
- ignore_index : 병합되면서 인덱스가 틀어지는 것 방지
- 기존 : 1,2,3,4, ... , 1,2,3,4, ...
- True로 설정 : 1,2,3,4,5,6,7,8, ...
특정 컬럼 제외할 때
df_concat.drop(columns = 'Unnamed: 0', inplace = True)
- drop(columns = 'Unnamed: 0')
- 제거할 컬럼 여러 개일 땐 : {'Unnamed: 0', ... }
파일 호출 시 행 건너뛰기
df1 = pd.read_csv('~~.csv')
- n개의 행을 건너뛰고 싶은 경우 : skiprows
pd.read_csv('~~.csv', skiprows=2)
- 또는 불러오고 나서 자르기
- iloc : 인덱스번호 기준 슬라이싱
- df1.iloc[2:]
특정 컬럼을 기준으로 테이블 편집 : melt
- 기존에 컬럼이었던 사항들이 지정된 컬럼을 기준으로 variable, value 변수 내 값이 됨
- 예) 지점별 값 따로
- variable : 지점컬럼
- value : 각 지점이 가지던 값으로
df3.melt(id_vars = df3.columns[:4]
rename
df3.rename(columns = {'variable' : '지점', 'value' : '판매량'})
컬럼 type 변경 : astype
df4['합계(int)'] = df4[' 합계'].astype(int)
기술통계량 확인 : describe
df4.describe()
idxmax / idxmin
- 최대/최소값 조회
- 인덱스 설정되어 있을 시, 인덱스 값뿐만 아니라 내용도 출력
p2 = p1.set_index('지점')
p2.idxmax()