Goal highlight 학습까지 돌리기

FSA·2023년 12월 14일
0

video summarization

목록 보기
6/8

학습까지 필요한 부분

오디오를 넣는 방법 확인 및 구현

  • 필요성: 오디오는 골이 들어갔는지 아닌지 구분하는데 큰 도움을 준다.
    • 가까운 쪽 골대는 그물 소리가 난다.
    • 사람들이 골을 넣으면 환호성을 지른다.
  • 방법론
    • 비디오에서, 오디오 데이터를 어떻게 vector화 추출하는지 파악
    • vector화된 오디오 데이터를, 어떤 pre-train된 네트워크를 이용해서 인코딩하는지 파악
    • 이를 어떻게 코드로 구현할 것인지 파악

비디오를 2분 30초로 짜르는데, 2초 간격마다 사진으로 유추하는것인지 확인

  • 필요성: 비디오를 2초마다 샘플링하면, 골인지 아닌지 판단하는데에 매우 방해를 준다.
    • 먼 쪽 골대는 사람들에게 골대가 occulusion이 자주 되어, 공의 궤적을 파악하기가 어렵다.
  • 방법론
    • 비디오 이미지가 어떤과정으로 인코딩되는지를 전부 확인하면 될듯
    • 논문을 먼저 보고, 그 다음 코드를 보자.
    • 왜 2초 간격으로 끊어야 하는지? 다른 대안은 없는지 파악

query 인코딩 방법 확인

  • 확인할 사항
    • 다양한 query로 바꿔넣는것이 성능에 큰 차이를 유발하는 구조인지 확인
      • 예: goal scoring moment, Scoring a goal, Soccer team scores a goal 마다, 성능 차이가 많이 나는지 궁금
    • query에 길이 제한이 있는지 확인
      • 길이를 길게 넣으면, 문제가 생기는지 확인
  • 방법론
    • query가 어떤 과정으로 인코딩되는지를 전부 확인하면 될듯

output 출력 과정 확인

  • 2가지 테스크를 전부 다 학습하는 구조일텐데, 그렇다면, saliency_scores 도 내가 라벨링해야하나?
  • 하이라이트 클립만 뽑아주는 부분만 fine tuning 할 순 없을까?

골 장면을 잡아내는게 목표라면, "relevant_windows"를 어떻게 라벨링하면 좋을까?

  • 골 하이라이트는 아래 3가지 과정으로 구성됨
    • 슛을 쏘기까지의 과정
    • 슛을 쏘고 -> 공이 골대로 들어가는 과정
    • 공이 골대로 들어간 후 -> 다시 경기를 재개하기까지 과정
  • 딥러닝: query: "All Goals"
    • output: Goal에 대한 장면 [시작 시간 ~ 끝 시간]
  • TODO: 알아봐야할 것
    • goal을 찾는데에, "슛을 쏘기까지의 과정"은 도움이 안될 것 같음.
    • goal을 찾는데에, "공이 골대로 들어간 후 -> 다시 경기를 재개하기까지 과정"은 큰 도움이 되지만, query 내용과는 무관한 장면임
    • 내 생각: "relevant_windows" 라벨링은: "슛을 쏘고 -> 공이 골대로 들어가는 과정" 부근에만 해야하지 않을까?
    • 내 생각: "relevant_windows" 라벨링은 공이 골대에 들어간 그 시각 float 1개만 라벨링하고, 학습할 때는 gt를 (공이 골대에 들어간 그 시각- a초) ~ (공이 골대에 들어간 그 시각 + b초) 로 두고 이걸 맞추도록 학습하면 좋지 않을까?

profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글