'권철민' 저자님의 파이썬 머신러닝 완벽가이드 책을 참고했습니다.
또한,kaggle
의Datasets
중
CCO License
인World Happiness Report
의 데이터를 사용하여 학습하며 작성했습니다.아래의 글은 직접 학습하며 작성한 게시물로, 오류가 있을 수 있습니다.
고수분들께서 발견하신 오류를 알려주시면 감사하겠습니다!
DataFrame은 Python의 List, Dict
그리고 Numpy의 ndarray등 다양한 데이터로부터 생성될 수 있다.
또한 반대로 DataFrame이 위의 타입들로 변환될 수 있다.
따라서 DataFrame과 Numpy의 ndarray 상호간의 변환은 매우 빈번하게 발생한다.
우선, DataFrame은 행과 열을 갖는 2차원 데이터이다.
따라서 2차원 이하의 데이터들만 DataFrame으로 변환될 수 있다.
위의 예시에서는 1차원을 변환했으므로 col_name
에 하나의 값만 필요하다.
일반적으로 Dict를 DataFrame으로 변환시에는
Key -> column name
Value -> data
으로 매핑된다.
따라서 Key는 문자열, Value는 리스트(또는 ndarray)로 Dict를 구성한다.
Data Handling은 DataFrame타입을 이용하더라도,
ndarray를 기본 데이터 형으로 사용하는 머신러닝 패키지에 적용하기 위해
다시 ndarray로 변환하는 경우가 많다.