Dataset 불러오기

yuns_u·2021년 7월 11일
0

개요

"파이썬"에 데이터를 "불러오는" 것부터 할 수 있어야 파이썬에서 판다스를 활용해서 데이터를 내가 원하는 방식으로 가공할 수 있을 것이다. 이 불러오기를 따로 정리를 해서 혹시나 나중에 내가 길을 잃으면 차분하게 시작해 볼 수 있도록 여기에 써보고자 한다.

Dataset을 불러오기 위한 단계

1️⃣ Description을 통해 데이터셋에 대한 정보를 파악하기

  • 행과 열의 수
  • 열에 헤더가 있는지 ("데이터 이름"이 있는지?)
  • 결측 데이터 (Missing data)가 있는지 확인
  • 원본의 형태를 확인하기 : 내가 기대하던 형태가 아닐 수도 있다. (가로축과 세로축의 기준이 다르다거나..)

❓데이터셋 정보 파악을 불러오기 전에 해야하는 이유는 무엇일까?

원본 데이터셋에 따라서 때로는 행의 헤더 부분을 직접 입력 해야 할 수도 있고 내가 예상하는 형태가 아닌 데이터일 수 있어서 불러오기조차 안되는 경우도 있을 수 있다.

2️⃣ pandas.read_csv()등을 사용하여 데이터셋 불러오기를 시도하고, 오류가 있다면 원인에 대해 조사하기

pandas.read_파일형식()의 함수를 통해 특정한 파일 형식으로 구성된 데이터셋을 불러올 수 있다. 자세한 사용법은 아래 링크를 참조!
pandas.read_csv()

📖 csv란?

CSV(comma-separated values)란 파일의 형식(포맷)의 한 종류이다. 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다.

대중적으로 사용되는 비교적 단순한 파일 형식으로 호환되지 않는 포맷을 사용하는 프로그램 끼리 자료를 전달할 때 사용할 때 많이 쓰인다. 많은 프로그램들이 포맷을 내보내거나 가져올 때 조금 변형된 형태의 CSV을 지원하기 때문이다.
출처

좋은 dataset이란?


이미지 출처

dataset 자료들이 모아져 있는 사이트

UCI Machine Learning Repository

profile
💛 공부 블로그 💛

0개의 댓글