Python 데이터 처리

Jyo·2022년 8월 11일

Python

목록 보기
2/5

pandas

pip install pandas

import pandas as pd
import re

csv 파일 일고 쓰기

read_csv

parameters
filepath_or_buffer
sep  :  Delimiter to use
header : 첫 번째 인덱스를 header 로 사용 할지.
names : 각 열들의 이름들 배열로 주어줌
encoding : 

to_csv

parameters
filepath_or_buffer
sep :
index :
encoding
한글파일일 경우 한글이 깨짐
=>to_csv("[file_path] , encoding='utf-8-sig')

read_excel

parameters
ex
df = pd.read_excel("[file_path]", sheet_name=0, engine='openpyxl') 

os

file_list = os.listdir(path)
file_list_py = [file for file in file_list if file.endswith('csv')

file 붙이기

for i in file_list_py:
	data = pd.read_csv(path + i)
    df = pd.concat([df,data])

데이터 다루기

데이터 생성

하고자하는 열들로 리스트 2개 생성(리스트 2개의 길이는 같아야함)
list1 = []
list2 = []
dic = {"key":list1, "value":list2}
df = pd.DataFrame(dic)
#df = pd.DataFrame({"key":list1, "value":list2})

데이터 결측치 처리

df.dropna(axis=0)
 : 결측 행 drop 
 axis : 0 =, 1 =
df.index    :인덱스 값
df.values   :dataframe 값
df.columns  :header 값
df.to_list  :list로 반환
ex) header 값 리스트로 출력하기
df.columns.to_list()
columns 값으로 필요한 데이터만 추출하기
df[['columns1','columns2','columns3']]

데이터 결측치 확인

df.isnull()
DataFrame df를 결측치 True/False 로 표현
df.isnull().sum()
DataFrame df의 결측치 개수 확인

Jupyter 자동완성

%config Completer.use_jedi = False

or

!pip uninstall jedi
profile
Jyo

0개의 댓글