pandas

naem1023·2021년 8월 19일
0

python

목록 보기
4/8

쓸 때마다 쓰기 싫고 사용법 익히자마자 잊어버리는 pandas다. 까먹지 않게 정리해둔다.

Pandas

tabular 데이터를 다루기 위한 라이브러리. R의 체계를 많이 따왔다고 한다. numpy와 통합되면서 성능도 향상됐다고 한다.

DataFrame

  • Data table 전체를 포함하는 object. 모든 데이터의 wrapper라고 생각하면 된다.
  • DataFrame의 Serires들은 Series마다 data type이 다를 수 있다.

Series

ojb = Series(data=data, index=index)
ojb.index # -> index list
ojb.values # -> only list of values
  • DataFrame 중 하나의 column에 해당하는 object.
  • numpy의 wrapper지만 indexing에서 다른 점이 있다.
    • numpy처럼 숫자로만 indexing이 되는 것이 아니라 문자로도 가능하다.
  • data에 list를 넣으면 자동으로 숫자가 indexing.
  • data에 dict를 넣으면 자동으로 dict 형태에 맞춰서 indexing.
  • index parameter가 최우선으로 indexing 우선권을 가진다.

read_csv()

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

pd.read_csv(data, sep='\s+\, header=None)
  • data: file system, web url 모두 가능
  • seperator: seperator 지정
    • s: single space
    • +: 여러개가 있다.
      나도 이 정도만 썻던거 같다. 필요하면 docs에서 계속 찾아가면서 쓰자.

head(n)

상위 n개의 데이터만 불러온다.

columns

리스트 형태이고 column들의 이름을 지정할 수 있다.

df_data.columns = ['a', 'b']

values

pandas를 numpy 형태로 반환한다.

iloc, loc

loc는 column 명을 접근하는 방식을 지원한다.
iloc는 numpy처럼 접근 가능하게 해준다. 난 iloc가 편한다..

profile
https://github.com/naem1023

0개의 댓글