<3주차_7일>서울시 CCTV현황 분석 _ 이론 및 실습 (2) Pandas

Nary Kim·2023년 5월 22일
0
post-thumbnail

Pandas

  • 굉장히 유용한 모듈.

  • pandas는 통상 pd로 import하고

  • 수치해석적 함수가 많은 numpy는 통상 np로 import한다.

  • 가장 간단한 데이터형식으로 Series가 있다.(pd.Series)

  • pd.date_range : 시간, 날짜를 다루는 함수

  • df = pd.DataFrame(행렬의 크기, index=dates, columns=['각 콜롬의 이름 지정'])

  • df.info() : DataFrame의 기본 정보를 제공

  • df.describe() : DataFrame의 통계적 기본 정보를 제공

  • df.sort_values(by="원하는 열의 이름", acending=내림차순(False) or 오름차순(True)) : 원하는 열을 기준으로 정렬이 된다.

  • df["A"] : "A" 열만 출력

  • df[0:3] : 0,1,2 행의 값 출력 (마지막 값인 3 행의 값은 출력하지 않는다.)

  • 그러나 인덱스나 열의 이름으로 slice하는 경우는 마지막 끝을 포함한다.

  • df.loc[행,열] :로컬한 값을 보고싶을때 쓸수 있다. 이름으로도 사용가능.

  • iloc은 숫자로만 설정한다.

  • df.iloc[n] : 행값이 나옴.

  • df.iloc[3:5, 0:2] : 3행 4행 과 0열, 1열이 겹치는 부분이 출력

  • df[df["A"] > 0] : 일때, df의 값을 출력하라는 말이므로 "A" 열이 0보다 작은 행을 제외하고 출력한다.

  • df[df > 0] : df 안에서 0보다 작은 값들이 NaN 처리 된다.

  • 특정요소가 있는 행만 선택하려면 .isin 사용

  • df[df["E"].isin(["two","four"])

  • del df["E"] : "E" 열 지움.

  • df.apply(np.cumsum) : 각 열의 누적합을 출력.

profile
나는 무엇이 될것인가!!

0개의 댓글