https://spark.apache.org/
1) multi language : Scala, Python, R, Java, SQL
2) cluster : 데이터 처리에 대한 cluster
3) 데이터 처리에 대한 얘기
= > Apache Spark는 Apache Hadoop 내에 있는 spark임
= > 즉, Hadoop Eco System에 spark를 올림
= > 하둡 에코시스템에 여러개 꽂아 사용할 수 있음
[Hadoop eco system]
scala, python, sql, java, R
hive, sqoop, flume , spark
=> spark를 hadoop eco system에 올림 -> 하둡이 더 빨라짐
spark 도구가 설치되어있는지 확인( bin, sbin )
cd bin
언어적인 도구는 bin에 들어있음 pyspark, sparkR , spark-shell, spark-class ..
ls
ls ../sbin
: 구성을 하며 일을 시키는 작업은 shell을 씀 start-master.sh, start-slaves.sh ...
main host :
os windows 10
mem : 16GB
4cpu
vm <- spark
os : centos8
mem : 8GB
3cpu
Spark 3.2.1 버전 Download
https://spark.apache.org/downloads.html
하둡버전도 맞춰주는것이 중요!
free -g
=>메모리 사용량 확인
grep -c process /proc/cpuinfo
=> cpu 코어 개수 확인
설치
설치 경로 : /home/hadoop/downdata
https://www.apache.org/dyn/closer.lua/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz
cp -r spark-3.1.2-bin-hadoop3.2 /home/hadoop/spark-3.1.2
cd
=> ll
1) bashrc 파일에 환경변수 추가
vi .bashrc
export SPARK_HOME=/home/hadoop/spark-3.1.2
export PATH=$PATH:$HADOOP_HOME/sbin:~~~~:$FLUME_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin
source .bashrc
echo $SPARK_HOME
spark-submit --version
spark-submit --help
==> welcome to spark 나오면 성공!
2) spark env 파일 수정
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
# - MESOS_NATIVE_JAVA_LIBRARY, to point to your libmesos.so if you use Mesos
export SPARK_WORKER_INSTANCES=2
# Options read in YARN client/cluster mode
hadoop 실행 (선행되어 있어야 함)
start-dfs.sh
start-yarn.sh
jps
=> 5개 올라와있는지 확인
Spark 실행
spark-shell
spark-sql
pyspark
sh start-master.sh
jps
spark://hadoop00:7077
free -g
sh start-slave.sh spark://hadoop00:7077 -m 2g -c 1
jps
1) 작업을 spark master 위치에 올리기
pwd : /home/hadoop/spark-3.1.2/bin
sh spark-shell --master spark://hadoop00:7077
2) README.md 확인
3) Spark Shell에서 README.md count
val lines = sc.textFile("README.md")
lines.count()
4) ip:8080에서 running application 확인
5) Spark shell 확인
참고하면 좋은 사이트