데이터 분석을 할 때 사용한 다양한 데이터들에 대해서 이해하는 시간을 가져보려 한다. 그 중, Series 객체에 대해 이해하려 한다.
pandas 라이브러리에서 제공하는 객체 중 하나로
1차원 배열과 유사하다.
데이터 분석을 할 때, 다음과 같이 사용했다.
median_ages = train_data.groupby(['Pclass', 'Sex'])['Age'].median()
이때, median_ages에 저장되는 값이 Series 객체로 저장이 된다.
Pclass Sex
1 female 35.0
male 40.0
2 female 28.0
male 30.0
3 female 21.5
male 25.0
위의 코드를 출력하면 값은 이런 식으로 출력된다. 등석을 우선 그룹화 하고 그 안에서 성별을 그룹화했다. 그 다음 각 성별의 나이의 중앙값을 가졌다.
이게 가능한 이유는 Series 객체의 다중 인덱스를 가지기 때문이다. 즉, Series는 여러 차원의 인덱스를 가진다. 이 예에서는 Pclass와 Sex 두 개의 차원의 인덱스를 가지고 있다.
그래서 값에 접근하기 위해서는, "1등석에 탑승한 여성 승객의 나이 중앙값에 접근" median_ages[1, 'female']과 같이 사용할 수 있다.
핵심은 '차원'이 다르다. Series 객체는 1차원의 데이터지만, DataFrame 객체는 Excel과 같은 2차원의 데이터다.
그래서 DataFrame은 Series보다 복잡한 데이터를 나타낼 수 있으며, 여러 Series를 하나로 결합한 형태로 볼 수 있다. 또한 Series는 개별 데이터 열을 처리할 때 유용하며, DataFrame은 여러 열을 포함하는 복잡한 데이터 세트를 처리할 때 사용된다.