profile
열심히 살자
post-thumbnail

Spark cluster

하둡 클러스터링이 완료됬다는 전제하에 진행한다.https://velog.io/@kidae92/Hadoop-Cluster ~/.bashrc환경변수 적용$SPARK_HOME/conf/slaves$SPARK_HOME/conf에 가보면 slaves를 포함한 모든 파일

2022년 4월 28일
·
0개의 댓글
·
post-thumbnail

[논문리뷰]스파크를 이용한 머신러닝의 분산 처리 성능 요인(2021)

아파치 스파크를 이용하여 머신러닝을 분산 처리할 때의 성능 요인을 분석하고 효율적인 분산 처리를 위한 실행 환경을 제시. 고려해야 하는 성능 요인으로 🟠 클러스터의 성능, 🟢 데이터의 규모, 🔵스파크 엔진의 속성으로 구분. 그리고 하둡 클러스터에서 동작하는 스파

2022년 3월 29일
·
0개의 댓글
·
post-thumbnail

[논문리뷰]Efficient Large Scale NLP Feature Engineering with Apache Spark(2022)

다른 곳에서 자주 언급되는 여러 정보는 제외하고 논문에서 주장하는 바만 정리해서 적어봤음.Wikipedia의 corpus(자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합)의 텍스트 features를 추출하기 위한 Apache Spark의 SQL A

2022년 3월 28일
·
0개의 댓글
·
post-thumbnail

Zeppelin & Spark로 데이터 분석하기1

https://velog.io/@kidae92/%EB%8F%84%EC%BB%A4%EB%A1%9C-Spark-Zepplein-%EC%84%B8%ED%8C%85%ED%95%98%EA%B8%B0 에서는 Zeppelin과 spark를 도커로 띄워보았다.원래는 아래 그

2022년 3월 15일
·
0개의 댓글
·

도커로 Spark-Zepplein 세팅하기

AWS로 Spark 공부를 진행하다 보니 비용이 만만치 않아서 도커를 통해 세팅 후 공부를 진행하기로 했다. 1. docker-compose up https://github.com/big-data-europe/docker-spark 를 참고하여 docker-compo

2022년 2월 17일
·
0개의 댓글
·
post-thumbnail

Spark ML 구현 로직 정리

Scikit Learn과 Spark ML Estimator의 차이가 있어서 공부할 겸 정리해 보았다.Scikit Learn Estimator 객체 자체가 학습된 모델을 가지고, Spark ML Estimator 별도의 Model 객체 자체가 학습된 모델을 가지는 차이가

2022년 1월 25일
·
0개의 댓글
·