[Python] 판다스, 시리즈, 1차원 데이터 / pandas, series

김대현·2024년 7월 15일

판다스 시리즈란? :

판다스는 1, 2차원 배열 및 데이터를 쉽게 다룰 수 있게 도와주는 도구이다. 그리고 시리즈는 1차원 배열 또는 데이터와 비슷한 자료구조로, 데이터와 인덱스를 함께 가지고 있다. 시리즈는 리스트나 배열처럼 다룰 수 있지만, 인덱스를 사용해 더 유연하게 데이터에 접근할 수 있다.

시리즈 생성 예제

먼저, 판다스를 임포트하고 1월부터 4월까지의 평균 온도 데이터를 시리즈 객체로 만들어 보자.

import pandas as pd

# 시리즈 생성
temp = pd.Series([-20, -10, 10, 20])
print(temp)

위 코드를 실행하면 다음과 같이 출력될 것이다.

0   -20
1   -10
2    10
3    20
dtype: int64

출력된 결과를 보면, 왼쪽에 자동으로 생성된 인덱스와 오른쪽에 우리가 입력한 데이터가 나타난다.

인덱스를 지정한 시리즈 생성

이제 인덱스를 1월부터 4월까지의 영어 이름으로 지정해보자.

# 인덱스를 지정하여 시리즈 생성
temp = pd.Series([-20, -10, 10, 20], index=['Jan', 'Feb', 'Mar', 'Apr'])
print(temp)

위 코드를 실행하면 다음과 같은 결과를 얻을 수 있다:

Jan   -20
Feb   -10
Mar    10
Apr    20
dtype: int64

이렇게 인덱스를 사용해 데이터를 더 직관적으로 접근할 수 있게 되었다.

시리즈 데이터 접근

시리즈 데이터를 접근하는 방법은 두 가지가 있다:

1. 인덱스 번호를 사용하는 방법

# 인덱스 번호로 접근
print(temp[0])  # 출력: -20
print(temp[2])  # 출력: 10

2. 지정된 인덱스 라벨을 사용하는 방법

# 인덱스 번호로 접근
print(온도[0])  # 출력: -20
print(온도[2])  # 출력: 10

존재하지 않는 인덱스 접근 시 에러 처리

존재하지 않는 인덱스를 접근하려 하면 KeyError가 발생한다. 예를 들어, 아래와 같이 존재하는 데이터인 6월 데이터를 접근했을 때에

print(온도['Jun'])  # KeyError 발생

위처럼 존재하지 않는 데이터 및 인덱스에 접근했을 떄는 에러가 발생한다.

출처 https://www.inflearn.com/course/lecture?courseSlug=%EB%82%98%EB%8F%84%EC%BD%94%EB%94%A9-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D-%EC%8B%9C%EA%B0%81%ED%99%94&unitId=109629&q=742634&category=questionDetail

김대현

데이터 분석 스쿨 블로그 입니다.

이전 포스트

[프로젝트] GA(Google Analytics) 데이터 활용 유저분석

다음 포스트