데이터분석에 관련된 기능을 제공하는 파이썬 라이브러리
큰 데이터를 빠르게 처리
pip install pandas 로 설치
series : pandas 를 구성하는 자료형 (1차원 자료형)
list : series 생성
import pandas as pd
data = pd.Series([1,2,3,4])
data
-> 0 1
1 2
2 3
3 4
dtype : int64
data = pd.Series(np.array([1,2,3,4])
data
-> 0 1
1 2
2 3
3 4
dtype : int32
data = pd.Series((1,2,3,4))
data
-> 0 1
1 2
2 3
3 4
dtype : int64
data = pd.Series({1:1,2:2,3:3})
data
-> 1 1
2 2
3 3
dtype : int64
data = pd.Series([1,2,3,4])
print(data)
print(data.Index)
print(data.values)
-> 0 1
1 2
2 3
3 4
dtype : int64
RangeIndex(start=0, stop=4, step=1)
[1 2 3 4]
data = pd.Seires(['축구','배구','농구','야구'], idnex = ['A','B','C','D'])
data
-> 가 축구
나 배구
다 농구
라 야구
dtype : object
data = pd.Series([1,2,3,4])
data.dtype
-> dtype('int64')
data = pd.Series(['축구','배구','농구','야구'])
data.dtype
-> dtype('0')
data = pd.Series(['축구','배구','농구','야구'], index = ['A','B','C','D'])
data.at['A']
-> '축구'
data = pd.Series([1,2,3,4,5])
data = data + 10
data
-> 0 11
1 12
2 13
3 14
4 15
dtype : int64
data = pd.Sereis([1,2,3,4,5])
data1 = pd.Series([10,20,30,40,50])
data = data + data1
data
-> 0 11
1 22
2 33
3 44
4 55
dtype : int64
data = pd.Series([1,2,3,4,5])
data = data - 10
data
-> 0 -9
1 -8
2 -7
3 -6
4 -5
dtype : int64
data = pd.Series([1,2,3,4,5])
data1 = pd.Series([10,20,30,40,50])
data = data - data1
data
-> 0 -9
1 -18
2 -27
3 -36
4 -45
dtype : int64
data = pd.Series([1,2,3,4,5])
data = data * 10
data
-> 0 10
1 20
2 30
3 40
4 50
dtype : int64
data = pd.Series([1,2,3,4,5])
data = data / 10
data
-> 0 0.1
1 0.2
2 0.3
3 0.4
4 0.5
dtype : float64
data = pd.Sereis([1,2,3], index = ['강남','노원',서초'])
data1 = pd.Series([4,5,6], index = ['강남','마포','동작'])
total = data + data1
total
-> 강남 5.0
노원 NaN
동작 NaN
마포 NaN
서초 NaN
dtype : float64
total = total.fillna(0)
total
-> 강남 5.0
노원 0.0
동작 0.0
마포 0.0
서초 0.0
dtype : float64
data = pd.Series([1,2,3], index = ['강남','노원','서초'])
data1 = pd.Series([4,5,6], index = ['강남','마포','동작'])
total = data + data1
total
-> 강남 5.0
노원 NaN
동작 NaN
마포 NaN
서초 NaN
dtype : float64
total = total.dropna()
total
-> 강남 5.0
dtype : float64
data = pd.Series([1,2,3,4,5])
data1 = pd.Series([10,20,30,40,50])
data = data + data1
data.describe()
-> count 5.000000 #데이터수
mean 33.000000 #평균
std #표준편차
min #최소값
25% #1/4분위수
50% #2/4분위수
75% #3/4분위수
max 최대값
dtype : float64
print('평균 :', result.mean()) #평균
print('표준편차 :', result.std()) #표준편차
print('최소값 :', result.min()) #최소값
print('최대값 :', result.max()) #최대값
-> 평균 : 33.0
표준편차 : 17.392527130926087
최소값 : 11
최대값 : 55