상태 초기화 (init_state 메서드):
video_path에서 비디오 프레임을 로드합니다.load_video_frames 함수는 비디오의 프레임을 GPU 또는 CPU로 로드하며, 프레임의 크기와 개수를 반환합니다.inference_state라는 딕셔너리로 모든 추론 상태를 관리합니다. 여기에는 로드된 이미지, 비디오 해상도, 장치 정보 등이 포함됩니다.offload_video_to_cpu: 비디오 프레임을 GPU 대신 CPU에 저장할지 여부를 설정합니다.offload_state_to_cpu: 추론 상태를 GPU 대신 CPU에 저장할지 여부를 설정합니다. 이는 GPU 메모리를 절약하지만 추적 속도가 약간 저하될 수 있습니다.point_inputs_per_obj, mask_inputs_per_obj: 각 객체별로 사용자 입력을 저장할 공간을 초기화합니다.cached_features: 최근에 방문한 프레임의 시각적 특징을 캐시하여 빠른 상호작용을 가능하게 합니다.output_dict: 각 프레임에서의 추적 결과를 저장하는 공간입니다.consolidated_frame_inds: 이미 통합된 출력이 있는 프레임을 추적 중에 사용할 수 있도록 관리합니다._get_image_feature 메서드를 호출하여 비디오의 첫 번째 프레임에 대해 이미지 특징을 추출하고 이를 캐시합니다. 이는 비디오의 첫 번째 프레임에 대한 초기 처리입니다.메서드 설명:
init_state 메서드는 비디오 추적을 위한 초기 상태를 설정하며, 비디오의 첫 번째 프레임에 대한 기본 특징을 준비합니다. 이 초기화 상태는 추적 작업 동안의 모든 상호작용 및 예측 작업의 기반이 됩니다.