Spark - HDFS 외부 접근 시 hostname으로 통신

sangam·2022년 6월 14일
0
  1. 사용자가 datanode 정보를 hostname으로 받을 수 있도록 namenode의 hdfs-site.xml에 configuration을 한다.
<property>
    <name>dfs.client.use.datanode.hostname</name>
    <value>true</value>
</property>
  1. 중요한건 Client(Spark) 쪽에도 configuration이 되어야 한다.
spark = SparkSession.builder.master('local')\
        .config("spark.hadoop.dfs.client.use.datanode.hostname", "true")\
        .getOrCreate()

이렇게 해두면 spark에서 namenode 접근하여 데이터 요청 시, datanode의 서버 정보를 hostname으로 받을 수 있다.

etc/hosts 정보를 해당 hostname으로 바꿔서 사용하면 끝!

0개의 댓글