[Pandas] 판다스 Series

HyunDong Lee·2021년 1월 8일
0

pandas

목록 보기
1/1
post-thumbnail

판다스의 자료구조

분석을 위해 소스를 수집하고 데이터의 형태를 잡아주는 방식이나 속성이 다양하다. 특히 내가 원하는 자료구조 형으로 데이터를 바꿔주면서 해결하는데 포커스를 맞춰서 공부할 생각이다.

  • 시리즈
  • 데이터프레임
    이 두가지가 판다스의 자료형이다. 시리즈는 1차원 배열이고 데이터프레임은 2차원 배열이다.

시리즈

  • 시리즈는 데이터가 순차적으로 나열된 1차원 배열
  • 인덱스와 데이터 값이 일대일 대응한다.
  • 시리즈를 만들기 위해서 딕셔너리를 시리즈로 변환하는 방법이 주로 사용된다.
딕셔너리 -> 시리즈 변환: pandas.Series(딕셔너리)

예제

import pandas as pd

dict_data = {'a':1, 'b':2, 'c':3}
sr = pd.Series(dict_data)
print(type(sr))
print(sr)
/* 실행 결과
<class 'pandas.core.series.Series'>
a    1
b    2
c    3
dtype: int64
*/

인덱스 구조

  • 인덱스는 자기와 짝을 이루는 데이터 값의 순서와 주소를 저장한다.
  • 데이터의 값의 탐색, 정렬, 선택, 결합 등 데이터 조작에 용이하게 사용된다.
  • 쉽게 말해서 시리즈를 사용하면 자동 인덱싱된 객체를 반환해준다.
list_data = ['2019-01-08', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)
print(sr)
""" 실행결과
0    2019-01-08
1          3.14
2           ABC
3           100
4          True
dtype: object
"""

"""시리즈를 활용해서 index속성과 values 속성을 이용하면 인덱스 배열과 데이터 값을 불러오기가 훨씬 수월해진다."""

print(sr.index)
print(sr.values)

"""실행 결과
RangeIndex(start=0, stop=5, step=1)
['2019-01-08' 3.14 'ABC' 100 True]
"""

시리즈 함수를 사용하여 파이썬 튜플을 시리즈 객체로 변환 시킬수 있다. 그렇게 되면 딕셔너리 처럼 각각의 인덱스의 이름을 지정해 줄 수 있다.

import pandas as pd

#튜플을 시리즈로 변환(인덱스의 이름을 지정할 수 있다.)
tup_data = ('제인', '2010-01-01', '여', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)

"""실행결과
이름              제인
생년월일    2010-01-01
성별               여
학생여부          True
dtype: object
"""

#인덱스 접근
print(sr[1], sr[0])
print(sr['생년월일'], sr['이름'])

"""실행 결과
2010-01-01 제인
2010-01-01 제인
"""

0개의 댓글