Series 객체 이해하기

yulsikogi·2024년 2월 22일
post-thumbnail

데이터 분석을 할 때 사용한 다양한 데이터들에 대해서 이해하는 시간을 가져보려 한다. 그 중, Series 객체에 대해 이해하려 한다.

Series 객체란?

pandas 라이브러리에서 제공하는 객체 중 하나로
1차원 배열과 유사하다.

데이터 분석을 할 때, 다음과 같이 사용했다.

median_ages = train_data.groupby(['Pclass', 'Sex'])['Age'].median()

이때, median_ages에 저장되는 값이 Series 객체로 저장이 된다.

Pclass  Sex   
1       female    35.0
        male      40.0
2       female    28.0
        male      30.0
3       female    21.5
        male      25.0

위의 코드를 출력하면 값은 이런 식으로 출력된다. 등석을 우선 그룹화 하고 그 안에서 성별을 그룹화했다. 그 다음 각 성별의 나이의 중앙값을 가졌다.

이게 가능한 이유는 Series 객체의 다중 인덱스를 가지기 때문이다. 즉, Series는 여러 차원의 인덱스를 가진다. 이 예에서는 Pclass와 Sex 두 개의 차원의 인덱스를 가지고 있다.

그래서 값에 접근하기 위해서는, "1등석에 탑승한 여성 승객의 나이 중앙값에 접근" median_ages[1, 'female']과 같이 사용할 수 있다.

Series 객체와 DataFrame 객체의 차이점

핵심은 '차원'이 다르다. Series 객체는 1차원의 데이터지만, DataFrame 객체는 Excel과 같은 2차원의 데이터다.

그래서 DataFrame은 Series보다 복잡한 데이터를 나타낼 수 있으며, 여러 Series를 하나로 결합한 형태로 볼 수 있다. 또한 Series는 개별 데이터 열을 처리할 때 유용하며, DataFrame은 여러 열을 포함하는 복잡한 데이터 세트를 처리할 때 사용된다.

profile
Let's enjoy it. For me

0개의 댓글