파일을 프로그램에 불러오는 방법은 매우 다양하다. 나는 구글 코랩으로 공부를 하므로 구글 코랩으로 데이터셋을 불러와서 데이터 전처리도 하고 분석도 하고자 한다. 이 때 사용할 수 있는 방법을 자주 쓰는 것들로 정리해보고자 한다.
from google.colab import drive
drive.mount('/content/drive')
위의 코드를 입력해서 실행하면 url이 뜨는데 눌러서 들어간 뒤 본인 드라이브가 있는 계정에 들어가서 authorization code를 복사해서 붙여넣으면 된다.
해당 authorization code를 입력하면 "Mounted at /content/drive"가 뜬다.
이제 구글 드라이브에 있는 파일을 코랩에 불러올 수 있다.
위의 코드를 치지 않아도 좌측 바에 있는 폴더에서 가져올 수 있다.
빨간 박스에 표시한 게 드라이브 마운트하기 버튼이다. 저 버튼을 누르면 위의 코드를 실행할 수 있는 박스가 자동으로 입력된다.
이후 pandas 로드 후 내 드라이브에 있는 csv 파일을 불러오면 된다.
import pandas as pd
df = pd.read_csv('파일명.csv')
df = pd.read_csv('파일이름, sep = '\t')
만약 txt 파일 등 csv 형식이 아닌 파일이라면 구분점에 명시를 해주고 같은 방식으로 가져오면 된다.
url 주소 끝의 확장자가 csv인 경우
import pandas as pd
import numpy as np
url = 'http://주소'
df = pd.read_csv(url)
url 주소 끝의 확장자가 csv가 아닌 경우
import pandas as pd
import numpy as np
url = 'http://주소'
df = pd.read_csv(url, sep = '\t')
이렇게 하면 url에 있던 데이터가 탭(tab)에 따라 구분되어 csv 파일 형태로 코랩에 저장된다.