URL이나 라이브러리를 통해 데이터셋을 불러올 수 있는 방법에 대해 정리하였다.
예를 들어, Hugging face에서는 다양한 데이터셋을 API로 제공하고 있다. 모델 학습을 위해 데이터를 가져오려면 아래 방법들을 사용해 데이터셋을 먼저 다운받은 후 진행하면 된다.
import requests
url = "https://datasets-server.huggingface.co/datasets/imdb/plain_text_train.csv"
filename = "imdb_train.csv"
try:
response = requests.get(url)
response.raise_for_status()
with open(filename, 'wb') as f:
f.write(response.content)
print(f"'{filename}' 파일 다운로드 완료...")
except requests.exceptions.RequestException as e:
print(f"파일 다운로드 중 오류가 발생했습니다...: {e}")
requests.get(url)
response.raise_for_status()
response.content
open(filename, 'wb')
import urllib.request
url = "https://datasets-server.huggingface.co/datasets/imdb/plain_text_train.csv"
filename = "imdb_train.csv"
try:
urllib.request.urlretrieve(url, filename)
print(f"'{filename}' 파일 다운로드 완료...")
except urllib.error.URLError as e:
print(f"파일 다운로드 중 오류가 발생했습니다...: {e.reason}")
urllib.request.urlretrieve(url, filename)
curl 명령어:
curl -o imdb_train.csv https://datasets-server.huggingface.co/datasets/imdb/plain_text_train.csv
-o 옵션은 다운로드한 파일의 이름을 지정
wget 명령어:
wget https://datasets-server.huggingface.co/datasets/imdb/plain_text_train.csv
wget은 기본적으로 파일명을 자동으로 추출하여 저장
from datasets import load_dataset_builder
from datasets import load_dataset
dataset = load_dataset("imdb") # Hugging Face의 datasets 라이브러리를 통해 API를 호출
Hugging Face의 datasets 라이브러리는 내부적으로 위에 설명된 HTTP 요청 방식을 통해 데이터셋 서버에서 파일을 다운로드하고 압축을 푸는 등의 작업을 자동으로 처리한다.