CCTV 01

yoong·2023년 5월 8일

6.EDA

목록 보기
1/8
  1. 파이썬 모듈에 대한 naming 규칙
  • import MODULE

    MODULE.function

  • import MODULE as md

    md.function

  • from MODULE import function

    사용: function only # 모듈에 포함된 fuction이라는 함수만 사용할때,

02.

  1. column 이름 조회
CCTV_Seoul_colums
CCTV_Seoul_colums[0]
  1. column 이름 바꾸기
CCTV_Seoul.rename(colums=(CCTV_Seoul.colums[0]:"구별"}, inplace=True)
CCTV_Seoul.head()


  • rename시, inplace =True 해주어야 원본까지 변경
CCTV_Seoul.rename(columns={CCTV_Seoul.columns[0]: "구별"},inplace=True)

  • 데이터 이름 변경
  1. 엑셀 읽기
  • 엑셀 읽기 = 파일명.read_excel
  • 자료 읽기 시작할 행(header)로 지정
  • 읽어올 엑셀의 컬럼 지정(usecols)
pop_Seoul = pd.read_excel("</xls파일>",header=2 ,usecols ="B,D,G,J,N")
pop_Seoul.head()

판다스

: pandas는 pd로 import , 수치해석적 함수가 많은 numpy는 통상 np로 import

01.판다스의 데이터형을 구성하는 기본은 'Series'
02.pd.date_range함수
:날짜(시간)을 이용할 수 있음.
03. df_valeus
: dataFrame의 value값 확인
04. df.info()
:dataFrame의 기본정보 확인, 각 컬럼 크기와 데이터 형태를 확인하는 경우가 많음
05. de.describe()
:dataFrame의 통계적 기본 정보를 확인
06. 데이터 정렬
: df.sort_values(by="B", ascending=False)
07. slice
a.

#인덱스 숫자인경우: n부터 m-1까지
#인덱스가 컬럼의 이름으로 slice하는경우 끝을 포함함 

df[n:m]
df["20130102":"20130104"]

b.

#행 혹은 열을 슬라이싱할 수 있음. 이름으로도 가능 
df.loc[:,["A","B"]

c. iloc
: iloc옵션은 번호로만 접근이 가능

df.iloc[3:5,0:2]

08.df

  • df[condition]과 같이 사용하는 것이 일반적
  • 판다스 버전에 따라 허용 문법이 조금씩 다름,
  • 인터넷 확보 소스를 돌릴 때, 버전을 꼭 확인할 필요

a.

[df["A"]>0]

b.

#특정요소가 있는지 확인 -true/false
df["E"].isin(["two","four"])
#확인값에 df[]로 감싸면 해당행만 추출가능
df[df["E"].isin(["two","four"])]

c. 특정 컬럼 제거

del df["E"]
df

d. 각 칼럼 누적함

df.apply(np.cumsum)

Reference

<참고>

  • 이글은 제로베이스 데이터 취업 스쿨의 강의자료 일부를 발췌하여 작성되었음.
profile
데이터와 이미지로 세상을 공부하는 중입니다 :)

0개의 댓글