Week1 - Day3 (Pandas)

jae oh·2021년 7월 19일
0

2021-summer-ai-bootcamp

목록 보기
4/8

Pandas 란?

  • pandas는 데이터 조작 및 분석을 위해 Python 프로그래밍 언어로 작성된 소프트웨어 라이브러리입니다. 라고 구글에 나온다
  • 그렇기에, pandas를 사용하기 위해서
    - pip install pandas를 먼저 해서 cli 환경에서 설치를 해줘야한다.
    - import pandas as pd로 쓸 수 있게 해줘야 한다.
  • Series, DataFrame
  • pd.read_csv()을 사용하면 csv파일을 불러올 수 있다.

Series

  • 1차원 array이다.
  • index를 지정해서 사용할 수 있다. slice와 같은 기능도 가능하다.
  • numpy, dictionary 등과 유사한 속성을 가지고 있다.
  • 처음에 정의할 때, 이름을 정해줄 수 있다.
a = pd.Series([1,2,3,4,5], name="number")
b = pd.Series({'one':1, 'two':2, 'three':3, 'four':4, 'five':5}, name="alpha_num")

print(a[3])
>> 4

print(b[1:3])
>>two    2
  three  3
  dtype: int64

print(a[[4,2,0]]) # 4,2,0의 index 순서대로 불러옴
>> 4   5
   2   3
   0   1
 
print(b['four'])
>> 4

b['seven'] = 7 # b에 원소 추가
'six' in b
>> False

DataFrame

  • 2차원 table
  • index를 지정해서 사용할 수도 있다.
  • pd.DataFrame(df)을 사용해서 제작할 수 있다.
  • 데이터 일부분 보기
    - head(n): 상위 n개의 데이터를 열람할 수 있다.
    - tail(n): 하위 n개의 데이터를 열람할 수 있다.
  • column에 접근할 때에는 df["column_name"] 이나 df.column_name을 사용하면 된다.
    df.column_name을 사용할 때에, column_name에 띄어쓰기가 있으면 적용이 안되기때문에 df["column_name"]을 사용하는 것이 안전하다.
  • 각 column은 하나의 series이기 때문에, df["column_name"][n] 형식으로 index 접근이 가능하다.
  • .unique()를 사용하면 해당 컬럼에서 유일한 값들만 볼 수 있다.
  • .groupby(by=df.["column_name"])을 사용하면 해당 컬럼의 값들을 기준으로 데이터의 정리본을 볼 수 있다.
  • 인덱스 사용하기: .loc[row, col]
  • 숫자 인덱스 사용하기: .iloc[rowidx, colidx]

pandas는 처음 사용해보는 건데, 데이터를 다루고 하는데 mysql이랑 비슷한 부분이 있어서 재밌게 배울 수 있었고 흥미로웠다! 되게 재밌었으!

profile
여기저기 돌아다니는중

0개의 댓글