EDA, 판다스

kimx1201·2021년 1월 16일
0

TIC : Today I Confused

목록 보기
1/10
post-thumbnail

DataFrame

index(행), columns(열) → 각 문자 또는 숫자를 레이블(lable)이라 부름.

df = pd.read_csv('data_01.csv', index_col='date')

이렇게 인덱스를 지정하면 데이트 열이 인덱스가 된다.

필요한 index, column 추출하기

loc : 글자로 검색 가능. 인덱스 번호나 칼럼명으로.

df.loc[:, 'x2':'x4'] 

2번째 열과 4번째 열 사이에 잇는 모든 칼럼 선택.

df2.loc[[30]].plot.bar()

30번째 칼럼에 있는 수치를 barplot으로

df.iloc[:, [1,2,6] ]

1,2,5 번 칼럼 선택. (칼럼은 0이 첫번째)

파이썬 자료형 종류

int형 (a = 1) → 정수
float 형 (a = 1.5) → 실수
str 형 (a = "supermoon" or a = 'abc') → 문자열
bool형 (True / False)
tuple형 (a=(1,2,3) or b=(2.) → 배열(수정 불가능)
ndarray형 (a = np.array([1,2,3])) → 행렬

데이터 dimension 확인하기

판다스를 활용한 기본 EDA

df.head() #처음 5개의 데이터 확인
df.tail() #마지막 5개의 데이터 확인
df.shape  #데이터 사이즈 확인 (행, 열 수)
df.info   #칼럼별 데이터 타입 및 실제 데이터 사이즈 확인
df.columns  #어떤 칼럼이 있는지
df.describe() #평균, 중간값 등 통계량 확인

데이터 결측치 확인 / 0으로 대체

df.isnull()
df.fillna()
isnull().sum() #null 개수를 알 수 있다.

데이터 csv로 변환해 출력하기

df.to_csv('csv_new') #csv_new는 저장할 파일 이름
profile
Lifelong learner, dreamy data analyst, cat lover and enthusiastic runner :)

0개의 댓글