Hadoop, HBase, Spark 클러스터 구축 및 운영

1.Hadoop 완전분산모드(Fully-Distributed) Cluster 구성

post-thumbnail

2.HBase 구성 ( Full-distributed )

post-thumbnail

3.Hadoop 운영을 위한 설정 정보 상세분석( Crawl )

post-thumbnail

4.Hbase 운영을 위한 설정 정보 상세분석( Crawl )

post-thumbnail

5.HDFS 데이터 블록 복제와 Rack Awareness 설정

post-thumbnail

6.Snappy 압축 설명 및 설치

post-thumbnail

7.Spark Cluster 구성

post-thumbnail

8.Spark Job을 실행시켰는데 offset의 sink가 맞지 않아서 실행되지 않은 문제

post-thumbnail

9.HBase 데이터 삭제

post-thumbnail

10.HBase 데이터 삭제2

post-thumbnail

11.Ambari에 연결하여 hdfs 평균 디스크 사용률 계산

post-thumbnail

12.On-heap memory 와 Off-heap memory

post-thumbnail

13.HBase 필수 지식

post-thumbnail

14.HDFS 및 HBase 리밸런싱

post-thumbnail

15.On Premise 환경에서 Hadoop Cluster Scale Out 하기전 서버 검토

post-thumbnail

16.Spark( RDD vs DataFrame vs Dataset)

post-thumbnail

17.Spark의 Partition 개념, spark.sql.shuffle.partitions, coalesce()

post-thumbnail

18.Spark partition pruning

post-thumbnail

19.Spark (yarn container, spark core, executor 개수 Memory 용량) 계산법 및 최적화

post-thumbnail

20.Spark (RDD action & transformation) + Dataframe의 연산(operation) 분류

post-thumbnail

21.Spark job에 따른 최적의 Partition 크기, 개수 조정하기

post-thumbnail

22.Spark (PartitionFilters vs PushedFilter 비교), (predicate pushdown vs projection pushdown)

post-thumbnail

23.Spark Memory 정리

post-thumbnail

24.Spark deploy mode (Cluster/Client)

post-thumbnail

25.Spark Scheduler

post-thumbnail

26.Spark FlatMap

post-thumbnail

27.Spark JDBC와 Aurora DB

post-thumbnail