Pandas Series 구조와 DataFrame 구조

midoi·2023년 7월 26일
0

빅데이터 분석

목록 보기
1/7
post-custom-banner
  1. series 구조 생성하기
    pd.Series({'a':1, 'b':2, 'c':3})

  2. DataFrame 구조 생성하기

table = {"일자": [ , , ], "가격": [ , , ], "제품":[ , , ] }
pd.DataFrame(table)
  1. 데이터 파일 읽어오기
df = pd.read_csv('파일경로', encoding='euc-kr')
df = pd.read_excel('파일경로', sheet_name='Sheet1')
  1. DataFrame 구조 파일 저장하기
df = pd.DataFrame(table)
df.to_csv('파일이름', encoding='euc-kr')
df.to_excel('파일이름', encoidng='euc-kr', index=False)
  1. 데이터 내용 확인
  • 데이터 내용 미리보기 : head(n), tail(n)
  • 요약 정보 확인하기 : 크기 확인 shape, 기본정보 info(), 기술통계정보 describe()
    include='all' 옵션을 추가하면 문자열 데이터에 대한 unique, top, freq에 대한 정보가 추가됨
  • 데이터 개수 확인 : 열 데이터 개수 count(), 열 데이터 고유값 개수 ['열이름'].value_counts()

-group by 연산자 적용

DataFrame.groupby(['cylinders'], as_index=False).mean()
DataFrame.groupby(['cylinders'], as_index=False)['weight','accleration'].mean() #원하는 열만 그루핑 확인
DataFrame.groupby(['modelyear', 'cylinders'], as_index=False).mean()
DataFrame.goroupby('modelyear','cylinders']).agg(['mean','median'])

agg는 다수의 함수를 묶어주는 역할을 한다.

post-custom-banner

0개의 댓글