CCTV 01

yoong·2023년 5월 8일

6.EDA

목록 보기

1/8

파이썬 모듈에 대한 naming 규칙

import MODULE

MODULE.function
import MODULE as md

md.function
from MODULE import function

사용: function only # 모듈에 포함된 fuction이라는 함수만 사용할때,

02.

column 이름 조회

CCTV_Seoul_colums
CCTV_Seoul_colums[0]

column 이름 바꾸기

CCTV_Seoul.rename(colums=(CCTV_Seoul.colums[0]:"구별"}, inplace=True)
CCTV_Seoul.head()

rename시, inplace =True 해주어야 원본까지 변경

CCTV_Seoul.rename(columns={CCTV_Seoul.columns[0]: "구별"},inplace=True)

데이터 이름 변경

엑셀 읽기

엑셀 읽기 = 파일명.read_excel
자료 읽기 시작할 행(header)로 지정
읽어올 엑셀의 컬럼 지정(usecols)

pop_Seoul = pd.read_excel("</xls파일>",header=2 ,usecols ="B,D,G,J,N")
pop_Seoul.head()

판다스

: pandas는 pd로 import , 수치해석적 함수가 많은 numpy는 통상 np로 import

01.판다스의 데이터형을 구성하는 기본은 'Series'
02.pd.date_range함수
:날짜(시간)을 이용할 수 있음.
03. df_valeus
: dataFrame의 value값 확인
04. df.info()
:dataFrame의 기본정보 확인, 각 컬럼 크기와 데이터 형태를 확인하는 경우가 많음
05. de.describe()
:dataFrame의 통계적 기본 정보를 확인
06. 데이터 정렬
: df.sort_values(by="B", ascending=False)
07. slice
a.

#인덱스 숫자인경우: n부터 m-1까지
#인덱스가 컬럼의 이름으로 slice하는경우 끝을 포함함 

df[n:m]
df["20130102":"20130104"]

#행 혹은 열을 슬라이싱할 수 있음. 이름으로도 가능 
df.loc[:,["A","B"]

c. iloc
: iloc옵션은 번호로만 접근이 가능

df.iloc[3:5,0:2]

08.df

df[condition]과 같이 사용하는 것이 일반적
판다스 버전에 따라 허용 문법이 조금씩 다름,
인터넷 확보 소스를 돌릴 때, 버전을 꼭 확인할 필요

[df["A"]>0]

#특정요소가 있는지 확인 -true/false
df["E"].isin(["two","four"])
#확인값에 df[]로 감싸면 해당행만 추출가능
df[df["E"].isin(["two","four"])]

c. 특정 컬럼 제거

del df["E"]
df

d. 각 칼럼 누적함

df.apply(np.cumsum)

Reference

<참고>

판다스 도큐멘터리
:https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

이글은 제로베이스 데이터 취업 스쿨의 강의자료 일부를 발췌하여 작성되었음.

yoong

데이터와 이미지로 세상을 공부하는 중입니다 :)

다음 포스트

CCTV 01

6.EDA

판다스

Reference

matplotlib : 기초

0개의 댓글