[kaggle] kaggle API 세팅하는법

으기부기·2022년 12월 22일
post-thumbnail

매번 캐글에서 데이터를 다운로드해서 받아왔었는데 kaggle api를 이용해서 데이터에 쉽게 접근할 수 있다는 것을 알게 되었다.

1. cmd창 열기

cmd창에

pip install kaggle --upgrade

를 입력한 후 실행한다.

2. API Token 발급받기

https://www.kaggle.com/ - 내 프로필 - Account로 들어가서

Create New API Token을 누르면 kaggle.json 파일을 받을 수 있다.

3. kaggle.json 파일 옮기기

C:\Users\<윈도우의 사용자이름>\.kaggle\kaggle.json

kaggle.json을 위 위치로 옮긴다.

kaggle.json을 열면 usernamekey를 알 수 있다.
이때 반드시 key는 꼭 나만 알고있어야하며 유출하면 안된다.
혹시 유출됐다면 위의 Expire API Token을 눌러서 파기시키면 된다.

4. colab에 kaggle API 세팅

import os

os.environ['KAGGLE_USERNAME']='yoosuhyeon'
os.environ['KAGGLE_KEY']='키값'

'키값'에 3에서 말했던 자신의 고유 키값(key)을 입력하면 된다.

5. kaggle API 사용하여 데이터셋 받아오기

1) kaggle - Datasets에 들어가서 원하는 데이터셋을 선택한 후 Copy API command를 클릭

오른쪽 위에 있는 점 세개 버튼을 누른후 Copy API command를 누르면 API 복사완료

2) 데이터셋 다운로드

!kaggle datasets download -d andrewmvd/heart-failure-clinical-data
!unzip '*zip'

colab에 위와 같이 그대로 붙여넣기 하면된다.

!unzip '*zip' 으로 압축해제까지하면 데이터를 사용할 수 있게 된다.

3) 데이터셋 확인

데이터가 잘 받아졌는지 확인하려면 !ls 를 실행하면 된다

이렇게 데이터 목록이 뜨면 성공이다.

df = pd.read_csv('heart_failure_clinical_records_dataset.csv')

따라서 kaggle API를 사용하면 데이터셋을 다운받을 필요가 없다는 장점이 있다.

profile
3년차 소프트웨어 QA엔지니어🐤

0개의 댓글