4. 외부파일 읽어오기/저장(csv, json, xls, html)

김동웅·2021년 8월 20일
0

Pandas with python

목록 보기
4/23

1. CSV(Comma- seperated values) 파일

  • 쉼표로 열을 구분하고, 줄바꿈으로 행을 구분

  • 판다스 내장함수인 read_csv()함수에 확장자 .csv를 포함하여 경로를 입력하면 csv파일을 읽어와 데이터프레임으로 변환한다.

  • 외부파일 읽어오기 : pd.read_csv("경로",옵션)

  1. header -> 열 이름으로 사용될 행의 번호( Default=0 )
    header=None으로 지정할 경우 첫 행의 데이터가 열이 된다.

  2. index_col -> 행 인덱스로 사용할 열의 번호 또는 열 이름

  3. names=[] -> 열이름으로 지정할 문자열 리스트

  • CSV 파일로 저장하기 : df.to_csv("저장할 경로")

2. Excel 파일

  • pd.read_excel("경로")

  • excel 파일로 저장하기 : df.to_excel("저장할 경로")

  1. sheet_name = "저장할 시트 이름"


3. json 파일

  • 데이터 공유를 목적으로 개발된 특수한 파일 형식
  • 'key:value' 구조
  • pd.read_json("경로")
  • json 파일로 저장하기 : df.to_json("저장할 경로",옵션)

4. 웹에서 가져오기

  • read_html() 함수는 웹페이지에 있는 < table >태그에서 표형식의 데이터를 모두 찾아서 데이터프레임으로 변환한다.

  • 표가 여러개인 경우 각각 별도의 데이터프레임으로 변환되므로 여러개의 데이터프레임을 원소로 갖는 리스트가 반환된다.

ex)

import pandas as pd

url = '/sample.html'

tables = pd.read_html(url)

for i in range(len(tables)):
	print(tables[i])
   

0개의 댓글