Pandas

Sang Jun Lee·2020년 8월 23일

위코드 3개월차 기업협업에 나가 자연어처리에 대해 공부하게 되어 먼저 파이썬 라이브러리인 pandas(판다스)에 대해 알아보고자 합니다.

1. Pandas란?

판다스는 파이썬에서 사용하는 데이터분석 라이브러리로 행과 열로 이러우진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구 입니다.

판다스를 사용하기 위해서는

pip install pandas

로 설치를 하고 보통 import pandas as pd 라고 불러와서 사용합니다.

판다스 자료구조
판다스에서는 기본적으로 정의되는 자료구조인 Series와 Data Frame을 사용합니다. 이 자료 구조들은 빅 데이터 분석에 있어서 높은 수준의 성능을 보여줍니다.

Object Creation (객체 생성)
데이터 구조 소개 섹션을 참조하세요.

Pandas는 값을 가지고 있는 리스트를 통해 Series를 만들고, 정수로 만들어진 인덱스를 기본값으로 불러올 것입니다.

s = pd.Series([1,3,5,np.nan,6,8])
s
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

datetime 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터프레임을 만듭니다.

dates = pd.date_range('20130101', periods=6)
dates
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

	A	B	C	D
2013-01-01	1.203664	0.035199	-0.516512	-1.651954
2013-01-02	-0.935893	0.854944	-0.814971	-0.333447
2013-01-03	-2.364223	-2.187468	1.018928	1.252907
2013-01-04	-2.214020	0.361885	-0.390074	-0.497004
2013-01-05	1.387345	-0.443100	-0.540677	-0.370186
2013-01-06	0.222998	-1.308863	0.433432	0.409407

데이터확인도 곧 확인해볼께요

Sang Jun Lee

Live now and Dream better tomorrow

이전 포스트

크롤링(왜 5번 이후로는 안되지...)

다음 포스트

Pandas

1. Pandas란?

크롤링(왜 5번 이후로는 안되지...)

Docker

0개의 댓글