
리듀스 단계는 중간 데이터를 입력으로 받아서 연산을 수행하고 결과를 생성합니다.
리듀스의 연산
[출처 : https://data-flair.training/blogs/hadoop-reducer/]YARN은 Apache Hadoop 2.0부터 도입된 리소스 관리 시스템입니다.
YARN은 Hadoop 클러스터 내의 자원 관리와 작업 스케줄링을 담당.
이전 버전의 Hadoop에서는 MapReduce만을 위한 자원 관리 시스템이었지만, YARN은 다양한 작업 유형(예: MapReduce, Spark, Tez 등)을 지원
YARN은 클러스터 리소스를 각 애플리케이션에 할당하고, 각 애플리케이션의 요구 사항에 따라 동적으로 리소스를 조정
이를 통해 Hadoop 클러스터에서 여러 작업을 동시에 실행하고, 자원의 효율성을 높일 수 있다.
greb을 통해 CONDITIONS 찾기
grep [옵션] [패턴] [파일]
greb 정리
