유가 데이터 전처리

I'm Cape·2023년 6월 7일
0

다운로드 폴더 경로 받아오기

import os

DOWNLOAD_DIR = "~/Downloads"

os.path.expanduser(DOWNLOAD_DIR)

os.path.expanduser은 OS 마다 다르게 작동한다.
전달되는 argument의 첫 글자가 tilde(~)이거나 ~user이어야 한다.
그러면 tilde를 replace 해준다.
참고 >>> 공식문서

pd.read_excel 시 특정 문자를 NaN으로 변경하기

엑셀에서 빈 값이 빈 값이 아닌 상태인 경우가 있다.
값이 없다는 뜻으로 데이터 작성자가 임의의 문자를 적어놓을 수 있다.
내가 모은 데이터도 그런 방식이었는데, -가 공백마다 입력되어 있었다.
가능하면 NaN으로 바꾸어주는 것이 좋다.
왜냐하면, .info()를 활용하여 DataFrame의 정보를 보면,
-값 때문에 column의 값이 모두 float이어도 object로 보이기 때문이다.
이는 pivot을 할 때 aggfunc와 같은 작업을 할 때 방해가 된다.

import pandas as pd

pd.read_excel(file_path, na_values='-')

경로가 없을 경우 경로 생성

import os

if not os.path.exists(save_dir):
	os.mkdir(save_dir) # 복수로 생성 시 makedirs라는 method도 있다

json 모듈 활용하기

import json
from urllib.request import urlopen

### 인터넷에서 파일 받아서 JSON으로 읽기
FILE_URL = "https://.../.../..."
with urlopen(FILE_URL) as file:
	json_data = json.load(file)

print(json_data) # scope 상관없이 가능

### JSON 데이터를 로컬 파일로 저장하기
FILE_DIR = "./data/my_new_json.json"
with open(FILE_DIR) as file:
	json.dump(json_data, file)
profile
Impact

0개의 댓글