training resuming 조건

AFL·2023년 12월 13일
0

Huggingface transformers 에서 translation 코드 중 일부

# Detecting last checkpoint.
    last_checkpoint = None
    if os.path.isdir(training_args.output_dir) and training_args.do_train and not training_args.overwrite_output_dir:
        
        last_checkpoint = get_last_checkpoint(training_args.output_dir)
        
        if last_checkpoint is None and len(os.listdir(training_args.output_dir)) > 0:
            raise ValueError(
                f"Output directory ({training_args.output_dir}) already exists and is not empty. "
                "Use --overwrite_output_dir to overcome."
            )
        elif last_checkpoint is not None and training_args.resume_from_checkpoint is None:
            print("resuming training at ", last_checkpoint)
            logger.info(
                f"Checkpoint detected, resuming training at {last_checkpoint}. To avoid this behavior, change "
                "the `--output_dir` or add `--overwrite_output_dir` to train from scratch."
            )

checkpoint 로 부터 train 을 resuming 하기 위해서

1) training_args.output_dir 를 다시 시작하려는 checkpoint 가 있는 디렉토리로 지정
2) training_args.resume_from_checkpoint 를 None (default) 로 설정

profile
공부해서 남주자

0개의 댓글

관련 채용 정보