위코드 3개월차 기업협업에 나가 자연어처리에 대해 공부하게 되어 먼저 파이썬 라이브러리인 pandas(판다스)에 대해 알아보고자 합니다.
판다스는 파이썬에서 사용하는 데이터분석 라이브러리로 행과 열로 이러우진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구 입니다.
판다스를 사용하기 위해서는
pip install pandas
로 설치를 하고 보통 import pandas as pd 라고 불러와서 사용합니다.
Pandas는 값을 가지고 있는 리스트를 통해 Series를 만들고, 정수로 만들어진 인덱스를 기본값으로 불러올 것입니다.
s = pd.Series([1,3,5,np.nan,6,8])
s
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
datetime 인덱스와 레이블이 있는 열을 가지고 있는 numpy 배열을 전달하여 데이터프레임을 만듭니다.
dates = pd.date_range('20130101', periods=6)
dates
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
'2013-01-05', '2013-01-06'],
dtype='datetime64[ns]', freq='D')
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df
A | B | C | D | |
---|---|---|---|---|
2013-01-01 | 1.203664 | 0.035199 | -0.516512 | -1.651954 |
2013-01-02 | -0.935893 | 0.854944 | -0.814971 | -0.333447 |
2013-01-03 | -2.364223 | -2.187468 | 1.018928 | 1.252907 |
2013-01-04 | -2.214020 | 0.361885 | -0.390074 | -0.497004 |
2013-01-05 | 1.387345 | -0.443100 | -0.540677 | -0.370186 |
2013-01-06 | 0.222998 | -1.308863 | 0.433432 | 0.409407 |
데이터확인도 곧 확인해볼께요