Python_45_ pandas

hyeong taek jo·2023년 9월 19일

Python

목록 보기
49/53

📌 pandas 개념

  • 파이썬의 기본 자료구조인 리스트, 튜플, 딕셔너리가 사용하기 편리하고 데이터를 다루는 데 효과적
  • pandas 역시 효과적인 데이터 분석을 위한 고수준의 자료구조와 데이터 분석 도구를 제공.
  • pandas의 Series는 1차원 데이터를 다루는 데 효과적인 자료구조이며,
    DataFrame은 행과 열로 구성된 2차원 데이터를 다루는 데 효과적인 자료구

📌 Series 기초

  • pandas의 Series는 1차원 배열과 같은 자료구조
  • from pandas import Series, DataFrame OR import pandas
  • 이미 앞서 여러 번 설명한 것처럼 모듈을 임포트하는 방식에는 크게 세 가지가 있는데, 그중 하나를 선택해서 사용하면 됨
  • pandas 모듈 내의 Series를 사용할 때도 꼭 위와 같은 방식으로 임포트할 필요는 없음 .
  • 다음과 같은 방식도 사용 가능한데 이 경우에는 Series를 사용하고자 할 때 pandas. Series와 같이 이름을 적어줘야 함.
    이와 달리 Series를 직접 로컬 네임스페이스로 임포트한 경우에는 pandas는 생략하고 바로 Series라고만 적으면 됨

📌 파일을 불러오는 법

import pandas as pd

#파일(데이터프레임)을 불러오는 법
data_frame = pd.read_csv('../data/friend_list.csv')
print('data_framge->{}'.format(data_frame))

#판다스를 사용하면 데이터를 가져오는게 쉬워진다

data_frame.head() # 데이터를 상단에 5개에서 6개만뿌려준다 왜냐면 데이터가 졸라게 많은데 다 뿌려주면 안되니까 구조만 알고 싶을때
print('data_frame.head()->{}'.format(data_frame.head()))

print('data_frame type(data_frame.job)-->{}'.format(type(data_frame.job)))

# 데이터 프레임을 직접 만드는 법
s1 = pd.core.series.Series(['one', 'two', 'three'])
s2 = pd.core.series.Series([1,2,3])
data_frame2 = pd.DataFrame(data=dict(word=s1, num=s2))
print('data_frame2->{}'.format(data_frame2))

📌 파일을 불러오는 법

import pandas as pd

df = pd.read_csv('../data/friend_list_tab.txt', delimiter='\t')
# delimiter는 구분자인데 탭('\t')으로 구분해서 읽어들여라
print('1.df-> {}'.format(df))

df = pd.read_csv('../data/friend_list_no_head.csv' , header=None)
# 헤더가 없으면 순자로 구분해준다.
print('2.df-> {}'.format(df))

#header 생성 (헤더는 나중에 만들어도 된다.)
df.columns = ['name', 'age', 'job']
print('3.df--> {}'.format(df))

# header 생성 & Data Read 한방에
df = pd.read_csv('../data/friend_list_no_head.csv' , header=None, names=['name', 'age', 'job'])
print('4.df--> {}'.format(df))
profile
마포구 주민

0개의 댓글