Python 데이터 처리

Jyo·2022년 8월 11일

NLP

Python

목록 보기

2/5

pandas

pip install pandas
import pandas as pd
import re

csv 파일 일고 쓰기

read_csv

parameters

filepath_or_buffer
sep  :  Delimiter to use
header : 첫 번째 인덱스를 header 로 사용 할지.
names : 각 열들의 이름들 배열로 주어줌
encoding :

to_csv

parameters

filepath_or_buffer
sep :
index :

encoding

한글파일일 경우 한글이 깨짐
=>to_csv("[file_path] , encoding='utf-8-sig')

read_excel

parameters

ex

df = pd.read_excel("[file_path]", sheet_name=0, engine='openpyxl')

os

file_list = os.listdir(path)
file_list_py = [file for file in file_list if file.endswith('csv')

file 붙이기

for i in file_list_py:
	data = pd.read_csv(path + i)
    df = pd.concat([df,data])

데이터 다루기

데이터 생성

하고자하는 열들로 리스트 2개 생성(리스트 2개의 길이는 같아야함)
list1 = []
list2 = []
dic = {"key":list1, "value":list2}
df = pd.DataFrame(dic)
#df = pd.DataFrame({"key":list1, "value":list2})

데이터 결측치 처리

df.dropna(axis=0)
 : 결측 행 drop 
 axis : 0 = 행, 1 = 열

df.index    :인덱스 값
df.values   :dataframe 값
df.columns  :header 값
df.to_list  :list로 반환

ex) header 값 리스트로 출력하기

df.columns.to_list()

columns 값으로 필요한 데이터만 추출하기

df[['columns1','columns2','columns3']]

데이터 결측치 확인

df.isnull()
DataFrame df를 결측치 True/False 로 표현
df.isnull().sum()
DataFrame df의 결측치 개수 확인

Jupyter 자동완성

%config Completer.use_jedi = False

or

!pip uninstall jedi

Jyo

이전 포스트

Python Json 여러 파일 읽기

다음 포스트

Python 데이터 처리

Python

pandas

csv 파일 일고 쓰기

read_csv

parameters

to_csv

parameters

encoding

read_excel

parameters

ex

os

file 붙이기

데이터 다루기

데이터 생성

데이터 결측치 처리

ex) header 값 리스트로 출력하기

columns 값으로 필요한 데이터만 추출하기

데이터 결측치 확인

Jupyter 자동완성

Python Json 여러 파일 읽기

Python 데이터처리2

0개의 댓글