Deployment(+HPA)
Job
completions/parallelism로 작업량·동시성 제어, Indexed로 샤딩/추적.CronJob
concurrencyPolicy (Forbid/Replace/Allow)
startingDeadlineSeconds
completionMode: Indexed (Job)
backoffLimit / activeDeadlineSeconds
ttlSecondsAfterFinished
resources(requests/limits)
topologySpreadConstraints / priorityClassName
timeZone (CronJob)
startingDeadlineSeconds로 회복 탄력 확보.0: 정상 완료(Completed).
143(=128+SIGTERM): 롤링/스케일다운/드레인 등 정상 시나리오에서 흔함.
137(=128+SIGKILL): Grace 초과 또는 OOMKilled.
terminationGracePeriodSeconds 상향 + preStop 훅으로 우아한 종료, 또는 리소스 증설/메모리 튜닝.앱 관점 가이드
라벨/추적키: jobId, commitSha, shardIndex(Indexed) → 문제 재현·영향도 파악 단축.
진행률/하트비트: 장시간 작업은 하트비트 파일/키 + 커맨드형 liveness로 “멈춤”을 신호화.
메트릭: 완료/실패/재시도 카운트, 실행시간 히스토그램(또는 로그 집계라도).
알림 룰:
수신/확인 분리: BRPOPLPUSH queue → inprogress로 유실 방지(워커 크래시 시 inprogress 스캔).
하트비트: 처리 중 task:<id>.lastBeat 갱신 → Reaper CronJob이 타임아웃 항목을 원 큐로 복원.
종료 시맨틱:
ttlSecondsAfterFinished, backoffLimit, activeDeadlineSeconds(Kustomize/Helm).kubectl diff / server-side apply / prune.