분석을 위해 소스를 수집하고 데이터의 형태를 잡아주는 방식이나 속성이 다양하다. 특히 내가 원하는 자료구조 형으로 데이터를 바꿔주면서 해결하는데 포커스를 맞춰서 공부할 생각이다.
딕셔너리 -> 시리즈 변환: pandas.Series(딕셔너리)
import pandas as pd
dict_data = {'a':1, 'b':2, 'c':3}
sr = pd.Series(dict_data)
print(type(sr))
print(sr)
/* 실행 결과
<class 'pandas.core.series.Series'>
a 1
b 2
c 3
dtype: int64
*/
list_data = ['2019-01-08', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)
print(sr)
""" 실행결과
0 2019-01-08
1 3.14
2 ABC
3 100
4 True
dtype: object
"""
"""시리즈를 활용해서 index속성과 values 속성을 이용하면 인덱스 배열과 데이터 값을 불러오기가 훨씬 수월해진다."""
print(sr.index)
print(sr.values)
"""실행 결과
RangeIndex(start=0, stop=5, step=1)
['2019-01-08' 3.14 'ABC' 100 True]
"""
시리즈 함수를 사용하여 파이썬 튜플을 시리즈 객체로 변환 시킬수 있다. 그렇게 되면 딕셔너리 처럼 각각의 인덱스의 이름을 지정해 줄 수 있다.
import pandas as pd
#튜플을 시리즈로 변환(인덱스의 이름을 지정할 수 있다.)
tup_data = ('제인', '2010-01-01', '여', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)
"""실행결과
이름 제인
생년월일 2010-01-01
성별 여
학생여부 True
dtype: object
"""
#인덱스 접근
print(sr[1], sr[0])
print(sr['생년월일'], sr['이름'])
"""실행 결과
2010-01-01 제인
2010-01-01 제인
"""