Pandas 알아보기

박병규·2021년 7월 15일
0

인공지능_부트캠프

목록 보기
4/17
post-thumbnail

Pandas란

pandas는 데이터들을 더 편하게 관리해주는 python의 라이브러리이다.
데이터를 분석할 수 있고 쉽게 처리할 수 있도록 도와준다.

Pandas로 1차원 데이터 다루기 - Series

Series 생성

pd.Series()

Series는 조건, slicing으로 값을 추출할 수 있다.

dict과 유사한 기능

이름 붙이기

Pandas로 2차원 데이터 다루기 - dataframe

dataframe 생성

pd.DataFrame()
pd.read_csv() #csv파일과 현재 파일의 같은 경로에 있으면 "./파일이름"으로 쓴다.

데이터의 일부분만을 보기

pd.head(n) # 앞에서부터
pd.tail(n) # 뒤에서부터

데이터 접근하기

df['column_name'] 또는 df.column_name으로 데이터에 접근을 할 수 있다.
데이터에 접근을 할때에 column_name이 일치하는지 잘 확인하자
Dataframe의 각각의 column은 1차원이였던 Series이다.
다시 말해 Dataframe의 column에서 또 조건을 찾아 데이터에 접근을 할 수 있다.

조건을 이용해서 데이터에 접근하기

df['조건']

행과 인덱스로 데이터에 접근하기

df.loc['name'] # 행 데이터 불러오기
df.iloc[idx] # index로 행 데이터 불러오기

groupy를 활용한 pandas활용

말그대로 그룹별로 나누어 주는것 같다

df['구하고하자하는 값'].groupby(by='분할하는 영역')

  • Split : 특정한 기준을 바탕으로 DataFrame 분할
  • Aplly : 통곟함수 sum(),mean(),Median()등 을 적용해서 데이터를 압축
  • Combine : Apply된 결과를 바탕을 새로운 Series생성
profile
computer science student

0개의 댓글