판다스는 1, 2차원 배열 및 데이터를 쉽게 다룰 수 있게 도와주는 도구이다. 그리고 시리즈는 1차원 배열 또는 데이터와 비슷한 자료구조로, 데이터와 인덱스를 함께 가지고 있다. 시리즈는 리스트나 배열처럼 다룰 수 있지만, 인덱스를 사용해 더 유연하게 데이터에 접근할 수 있다.
먼저, 판다스를 임포트하고 1월부터 4월까지의 평균 온도 데이터를 시리즈 객체로 만들어 보자.
import pandas as pd
# 시리즈 생성
temp = pd.Series([-20, -10, 10, 20])
print(temp)
위 코드를 실행하면 다음과 같이 출력될 것이다.
0 -20
1 -10
2 10
3 20
dtype: int64
출력된 결과를 보면, 왼쪽에 자동으로 생성된 인덱스와 오른쪽에 우리가 입력한 데이터가 나타난다.
이제 인덱스를 1월부터 4월까지의 영어 이름으로 지정해보자.
# 인덱스를 지정하여 시리즈 생성
temp = pd.Series([-20, -10, 10, 20], index=['Jan', 'Feb', 'Mar', 'Apr'])
print(temp)
위 코드를 실행하면 다음과 같은 결과를 얻을 수 있다:
Jan -20
Feb -10
Mar 10
Apr 20
dtype: int64
이렇게 인덱스를 사용해 데이터를 더 직관적으로 접근할 수 있게 되었다.
시리즈 데이터를 접근하는 방법은 두 가지가 있다:
1. 인덱스 번호를 사용하는 방법
# 인덱스 번호로 접근
print(temp[0]) # 출력: -20
print(temp[2]) # 출력: 10
2. 지정된 인덱스 라벨을 사용하는 방법
# 인덱스 번호로 접근
print(온도[0]) # 출력: -20
print(온도[2]) # 출력: 10
존재하지 않는 인덱스를 접근하려 하면 KeyError가 발생한다. 예를 들어, 아래와 같이 존재하는 데이터인 6월 데이터를 접근했을 때에
print(온도['Jun']) # KeyError 발생
위처럼 존재하지 않는 데이터 및 인덱스에 접근했을 떄는 에러가 발생한다.