파이썬 활용 - Pandas

조쿨러·2024년 1월 1일

Python

목록 보기
2/12

2. Pandas

데이터분석에 관련된 기능을 제공하는 파이썬 라이브러리
큰 데이터를 빠르게 처리
pip install pandas 로 설치

  • series : pandas 를 구성하는 자료형 (1차원 자료형)

  • list : series 생성

import pandas as pd

data = pd.Series([1,2,3,4])
data

-> 0  1
   1  2
   2  3
   3  4
   dtype : int64
  • numpy : series 생성
data = pd.Series(np.array([1,2,3,4])
data

-> 0  1
   1  2
   2  3
   3  4
   dtype : int32
  • tuple : series 생성
data = pd.Series((1,2,3,4))
data

-> 0  1
   1  2
   2  3
   3  4
   dtype : int64
  • dict : series 생성
data = pd.Series({1:1,2:2,3:3})
data

-> 1  1
   2  2
   3  3
   dtype : int64

Series

  • index, value 값 확인
data = pd.Series([1,2,3,4])
print(data)
print(data.Index)
print(data.values)

-> 0  1
   1  2
   2  3
   3  4
   dtype : int64
   RangeIndex(start=0, stop=4, step=1)
   [1 2 3 4]
  • index 수정
data = pd.Seires(['축구','배구','농구','야구'], idnex = ['A','B','C','D'])
data

-> 가  축구
   나  배구
   다  농구
   라  야구
   dtype : object
  • dtype : 데이터타입 확인
data = pd.Series([1,2,3,4])
data.dtype

-> dtype('int64')

data = pd.Series(['축구','배구','농구','야구'])
data.dtype

-> dtype('0')
  • index 조회
data = pd.Series(['축구','배구','농구','야구'], index = ['A','B','C','D'])
data.at['A']

-> '축구'
  • Series 연산 : 합
data = pd.Series([1,2,3,4,5])
data = data + 10
data

-> 0  11
   1  12
   2  13
   3  14
   4  15
   dtype : int64
data = pd.Sereis([1,2,3,4,5])
data1 = pd.Series([10,20,30,40,50])
data = data + data1
data 

-> 0  11
   1  22
   2  33
   3  44
   4  55
   dtype : int64
  • Series 연산 : 차
data = pd.Series([1,2,3,4,5])
data = data - 10
data

-> 0  -9
   1  -8
   2  -7
   3  -6
   4  -5
   dtype : int64
data = pd.Series([1,2,3,4,5])
data1 = pd.Series([10,20,30,40,50])
data = data - data1
data

-> 0  -9
   1  -18
   2  -27
   3  -36
   4  -45
   dtype : int64
  • Series 연산 : 곱
data = pd.Series([1,2,3,4,5])
data = data * 10
data

-> 0  10
   1  20
   2  30
   3  40
   4  50
   dtype : int64
  • Series 연산 : 나누기
data = pd.Series([1,2,3,4,5])
data = data / 10
data

-> 0  0.1
   1  0.2
   2  0.3
   3  0.4
   4  0.5
   dtype : float64
  • NaN 처리 : fillna(값) 값으로 데이터
data = pd.Sereis([1,2,3], index = ['강남','노원',서초'])
data1 = pd.Series([4,5,6], index = ['강남','마포','동작'])
total = data + data1
total

-> 강남  5.0
   노원  NaN
   동작  NaN
   마포  NaN
   서초  NaN
   dtype : float64
   
total = total.fillna(0)
total

-> 강남  5.0
   노원  0.0
   동작  0.0
   마포  0.0
   서초  0.0
   dtype : float64
  • NaN 처리 : dropna() 삭제하기
data = pd.Series([1,2,3], index = ['강남','노원','서초'])
data1 = pd.Series([4,5,6], index = ['강남','마포','동작'])
total = data + data1
total

-> 강남  5.0
   노원  NaN
   동작  NaN
   마포  NaN
   서초  NaN
   dtype : float64
   
total = total.dropna()
total

-> 강남  5.0
   dtype : float64
  • describe() : 통계정보
data = pd.Series([1,2,3,4,5])
data1 = pd.Series([10,20,30,40,50])
data = data + data1
data.describe()

-> count  5.000000  #데이터수
   mean  33.000000  #평균
   std #표준편차
   min #최소값
   25% #1/4분위수
   50% #2/4분위수
   75% #3/4분위수
   max 최대값
   dtype : float64
print('평균 :', result.mean()) #평균
print('표준편차 :', result.std()) #표준편차
print('최소값 :', result.min()) #최소값
print('최대값 :', result.max()) #최대값

-> 평균 : 33.0
   표준편차 : 17.392527130926087
   최소값 : 11
   최대값 : 55
profile
지지 않기

0개의 댓글