정형(structured) vs. 반정형(semi structured data) vs. 비정형(unstructured) 데이터
판다스는 정형 데이터를 다룬다고 했다. 그런데 정형데이터가 뭘까?
- 정형데이터는 정확한 규칙을 따르는 데이터를 의미한다. 표 같은 형식을 생각하면 제일 좋다. 나이 컬럼에는 나이를 나타내는 수가 들어가고, 연도를 나타내는 컬럼에는 연도를 나타내는 수가 들어가는 표를 생각하면 되겠다.
- 반정형 데이터는 약한 정형 데이터라고 생각해도 된다. 규칙은 있지만 반드시 지킬 필요는 없는 경우다.
- 비정형 데이터는 정형 데이터의 반대 개념으로 정해진 규칙이 없어서 값의 의미를 파악하기 힘든 데이터는 말한다. 영상, 자연어, 음성, 주파수 같은 데이터가 비정형이다.
import pandas as pd
pd
라는 이름으로 판다스 라이브러리를 임포팅해오자. (다른 이름으로 해도 오류는 없으나 관습적으로 이렇게 쓴다)
판다스에는 두 가지 데이터 종류가 있다. 하나는 시리즈(Series)고, 다른 하나는 데이터프레임(DataFrame) 이다.
시리즈는 한 종류의 데이터를 모아 놓은 것이다. 표에서 한 행 혹은 한 열이라고 생각하면 좋다.
pd.Series(data=None, index=None, dtype=None, name=None, copy=None)
data
에 들어갈 수 있는 것은
시리즈가 여러 개 모이면 데이터프레임이 된다. 행과 열이 시리즈고 이들이 모인 표가 데이터프레임이라고 생각하면 쉽다.
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)
data
에 들어갈 수 있는 것은
컬럼명 : 값
으로, 값에는 Series, arrays, constants, dataclass 또는 list-like object가 들어갈 수 있음)