docker-compose
참고 페이지
https://github.com/dbusteed/kafka-spark-streaming-example
https://www.youtube.com/watch?v=9D7-BZnPiTY&t=756s
window local 환경에서 진행
이후 AWS EC2에서 진행할 예정
kafka 진입
docker exec -it kafka bash
apt 최신화 apt-get update
, sudo 설치 apt-get install sudo
zookeeper 실행/opt/kafka_2.13-2.8.1/bin/zookeeper-server-start.sh /opt/kafka_2.13-2.8.1/config/zookeeper.properties
=> tab 이름 ZK
kafka 토픽 확인. 최초 확인 시 Topic 없음. tweets 토픽 생성 후 topic 확인 시 topci 확인 가능
root@53642356f28f:/# /opt/kafka_2.13-2.8.1/bin/kafka-topics.sh --list --bootstrap-server localhost:9092
root@53642356f28f:/# /opt/kafka_2.13-2.8.1/bin/kafka-topics.sh --create --bootstrap-server localhost:9092 \
> --replication-factor 1 \
> --partitions 1 \
> --topic tweets
Created topic tweets.
root@53642356f28f:/# /opt/kafka_2.13-2.8.1/bin/kafka-topics.sh --list --bootstrap-server localhost:9092
tweets
root@53642356f28f:/#
윈도우 터미널 탭 2개로 진행
Producer Tab에 다음 명령어 수행
/opt/kafka_2.13-2.8.1/bin/kafka-console-producer.sh --broker-list localhost:9092 --topic tweets
consumber Tab에 다음 명령어 수행
/opt/kafka_2.13-2.8.1/bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic tweets
Producer Tab에 hello
입력
Consumer Tab에 hello
출력 확인
sudo apt install python3
sudo apt install python3-pip
pip3 install kafka-python
python3
sudo apt-get install git
git clone https://github.com/dbusteed/kafka-spark-streaming-example
chmod +x fake_tweet_stream.py
chmod +x transformer.py
chmod +x tweet_stream.py
vim words
(경로 pwd 명령어로 사용 : /kafka-spark-streaming-example/files)# 파일 내용
sdafjlsdhaflksadjfhkasdjfhl
sadfjhasdfksdhafkjsadfh
dsfhksadfjhsadkfjhsadkf
sdafkjsadfhkjsadfhkjsghiuwehkjvzxcj
weafuvbkcjzkcxjvb
vim fake_tweet_stream.py
word 파일 경로 수정# 파일 내용 변경
WORD_FILE = '/kafka-spark-streaming-example/files/words'
9 server.properties - advertiesd.host.name 수정 vim /opt/kafka_2.13-2.8.1/config/server.properties
# 아래 내용 추가/수정
...
listeners=PLAINTEXT://172.19.0.15:9092
...
advertiesd.host.name=자신의호스트주소
docker exec -it spark-zeppelin bahs
pip3 install pyspark
파이스파크 설치pyspark
실행 (ctrl + d
로 exit)pip3 install pyspark==3.0.0
pip3 install kafka-python
AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide".;
오류 발생시 아래 명령어 실행
spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.0.0 my_kafka_spark_app.py
또는
spark-shell --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.0.0
`