!apt-get install openjdk-8-jdk-headless # jdk 설치
!wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz # spark file
!tar -xf spark-3.0.0-bin-hadoop3.2.tgz # 스파크 압축풀기
!pip install findspark # 스파크 찾기
!pip install kaggle --upgrade # 캐글 데이터를 다운받기 위해 kaggle library 설치
import os # 운영체제와의 상호작용을 돕는 다양한 기능을 제공하는 모듈
import findspark
# 환경변수에 path 지정
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"
findspark.init() # spark의 경우 잘 찾지 못하는 경우가 있어 findsaprk를 이용
from pyspark.sql import SparkSession
spark = (
SparkSession
.builder
.appName("pyspark_test")
.master("local[*]") # local에서 사용하며, 모든 thread를 사용하도록 지정
.getOrCreate()
)
# 지금 만들어진 spark 객체의 설정 알아보기
spark.sparkContext.getConf().getAll()
# 결과값:
# [('spark.app.name', 'pyspark_test'),
# ('spark.rdd.compress', 'True'),
# ('spark.serializer.objectStreamReset', '100'),
# ('spark.app.id', 'local-1718367865659'),
# ('spark.master', 'local[*]'),
# ('spark.submit.pyFiles', ''),
# ('spark.executor.id', 'driver'),
# ('spark.submit.deployMode', 'client'),
# ('spark.driver.host', '557a49914c05'),
# ('spark.ui.showConsoleProgress', 'true'),
# ('spark.driver.port', '46109')]
1) Kaggle 로그인
2) 오른쪽 상단의 프로필 클릭
3) Settings
클릭
4) 페이지 아래로 내리기
5) API 섹션에서 Create New Token
버튼 클릭
6) Continue
버튼 클릭
7) Google Colab에 아래와 같이 쿼리 작성
# 다운받은 file을 colab에 올리기
from google.colab import files
files.upload()
8) Choose files
클릭하여 다운로드한 kaggle.json 파일을 Google Colab에 업로드
9) 아래와 같이 쿼리 작성하여 kaggle 데이터셋 다운로드 및 압축풀기
!mkdir -p ~/.kaggle/ # kaggle 폴더 생성
!cp kaggle.json ~/.kaggle/ # kaggle.json 파일 복사
!chmod 600 ~/.kaggle/kaggle.json # file 접근 권한 할당
!kaggle datasets download -d wethanielaw/iowa-liquor-sales-20230401 # 데이터 다운로드
!unzip /content/iowa-liquor-sales-20230401.zip # 압축풀기