[pandas 기초] Series 데이터 형식

서대철·2023년 7월 28일
0

시리즈(Series)는 1차원의 레이블이 지정된 배열로, 정수, 실수, 문자열 등 어떤 종류의 데이터든지 보유할 수 있습니다. 그러나 중요한 점은 시리즈의 각 요소는 동일한 데이터 타입이어야 하며, 판다스가 이를 강제하여 일관성과 효율적인 데이터 처리를 보장합니다.

예제1: 리스트를 활용한 시리즈 생성

import pandas as pd

# 리스트로부터 시리즈 생성
data_list = [10, 20, 30, 40, 50]
series_from_list = pd.Series(data_list)

print(series_from_list)

출력내용:

0    10
1    20
2    30
3    40
4    50
dtype: int64

시리즈는 자동으로 숫자 인덱스(0, 1, 2, 3, 4)가 할당되며, 데이터의 요소에 대한 데이터 타입(int64)과 함께 표시됩니다.

예제 2: 사용자 정의 인덱스를 가진 시리즈 생성

import pandas as pd

# 사용자 정의 인덱스를 가진 시리즈 생성
data_dict = {'A': 10, 'B': 20, 'C': 30, 'D': 40, 'E': 50}
series_custom_index = pd.Series(data_dict)

print(series_custom_index)

출력:

A    10
B    20
C    30
D    40
E    50
dtype: int64

이 예제에서는 사전 data_dict를 사용하여 사용자 정의 인덱스를 가진 시리즈 series_custom_index를 생성합니다. 사전의 키가 시리즈의 인덱스로 지정되고, 해당 값들이 데이터 요소로 설정됩니다.

시리즈는 단일 데이터 타입의 요소만 포함할 수 있다는 점이 특징입니다. 서로 다른 데이터 타입의 요소를 가진 시리즈를 생성하려고 하면, 판다스는 가능한 경우 모든 요소를 하나의 일반적인 데이터 타입으로 자동 변환합니다. 예를 들어:

import pandas as pd

# 다양한 데이터 타입을 가진 시리즈 생성
mixed_data_list = [1, 2.5, 'Hello', True]
series_with_mixed_data = pd.Series(mixed_data_list)

print(series_with_mixed_data)

출력:

0         1
1       2.5
2     Hello
3      True
dtype: object

이 예제에서는 정수, 부동소수점, 문자열, 불리언 값이 포함된 리스트에서 시리즈 series_with_mixed_data를 생성합니다. 요소들이 서로 다른 데이터 타입인 경우, 판다스는 모든 요소를 수용할 수 있는 가장 일반적인 데이터 타입으로 자동 변환합니다. 이 경우, 데이터 타입은 object가 됩니다.

서로 다른 데이터 타입을 가진 시리즈를 사용하는 것은 성능 문제를 일으킬 수 있으며, 동일한 데이터 타입을 사용하는 경우에만 가능한 특정 연산과 기능들이 제한될 수 있습니다. 그러므로 일관성 있는 데이터 타입을 가지도록 시리즈를 생성하는 것이 권장됩니다.

0개의 댓글