EMR step job에 대한 로그 보는 방법

NewNewDaddy·2023년 10월 24일
0

SPARK

목록 보기
4/17
post-thumbnail

0. INTRO

  • EMR 클러스터에서 spark job의 실행단위는 step으로 표현된다. spark-submit 명령을 통해 spark 작업을 EMR에 던지게 되면 step이 하나 추가되면서 작업이 돌기 시작한다.
  • 작업이 끝나면 Completed인지, Failed인지를 보여주게되고 해당 작업에 대한 관련 로그를 Log files 칸에서 열어볼 수 있다.
  • 이번 글에서는 EMR step 작업에 대한 작업 로그를 EMR master node에서 보는 방법에 대해서 간단히 다뤄볼까한다.

1. 로그 탐색

1. Step에 대한 application id 확인

  • 아래와 같이 EMR - step 탭에 가면 실행된 작업들에 대한 내역을 볼 수 있다.

  • 확인을 원하는 작업에 대해 Log files - stderr를 클릭하여 내용을 보면 해당 작업의 application id를 확인할 수 있다.

2. EMR Master Node에 SSH로 접속하여 로그 확인

  • Master Node에 접속 후 아래 명령어로 로그를 확인한다.

    yarn logs --applicationId application_1693747845938_8541

  • 터미널창에 해당 spark 작업에 대한 로그가 쭉 표시가 되는데 필요시 명령어 칠 때 grep으로 원하는 내용만 뽑아서 볼 수 도 있다.

2. 기타

  • yarn의 작동 구조에 대한 설명 -> YARN
  • spark application에 대한 작업 리소스 상황을 보여주는 명령

    yarn top

  • 작업중인 프로세스 강제 종료

    yarn application -kill [application id]

profile
데이터 엔지니어의 작업공간 / #PYTHON #CLOUD #SPARK #AWS #GCP #NCLOUD

0개의 댓글