[Hadoop] Hdfs 여러 파일을 한개로 합치기!

최지영·2022년 7월 13일
0

HDFS 내의 여러 파일을 하나의 파일로 합치기

📜 문제

Hadoop Echosystem을 운용하다 보면 Output 디렉토리에 여러 파일이 생기는 경우가 있다.
파일의 경우 하나의 파일로 나오지 않고 여러 파일로 생성이 되는데 이는 병렬 처리가 되는 과정에서 병목 현상을 줄이기 위해 여러개의 output파일로 만든다

해결 방법 ❓

getmerge 커맨드 사용

getmerge커맨드는 HDFS 내의 파일을 Merge해서 local에 파일을 생성하는 커맨드이며 사용 방법은 다음과 같다.

hdfs dfs -getmerge /files/part* /home/myname/merge.txt

이렇게 로컬에 저장한 파일을 한번에 hdfs에 재 업로드 할 수있는 방법은 없으며 이후 hdfs로 파일을 put 해주는 작업을 해줘야 한다✌

hdfs dfs -copyFromLocal /home/myname/merge.txt /mergefiles/merge.txt

0개의 댓글