Pose-estimation + golfswing 검색 키워드로 관련 연구 탐색

서유리·2022년 11월 9일
0

AI_Study

목록 보기
20/25

🔴 나의 생각

  • Individual golf-swing은 timing에 맞는 스윙을 할 때 가장 이상적인 스윙이라고 생각함
  • Timing이 맞으려면, 자신에게 맞는 스윙속도, 스윙 스피드, 임팩트구간을 찾는 것이 가장 중요하다고 생각함

🟠 Pose-estimation + golfswing 검색 키워드로 관련 연구 탐색

  • (참고용) 논문제목 : Applying Pose Estimation to Predict Amateur
    Golf Swing Performance Using Edge Processing (IEEE, 2020)
  • 논문제목 : GOLFPOSE: GOLF SWING ANALYSES WITH A MONOCULAR CAMERA BASED HUMAN POSE ESTIMATION (IEEE, 2022)
  • 논문제목 : Automatic Moving Pose Grading for Golf Swing in Sports (IEEE, 2022/10)

🟡 Title

  • GOLFPOSE: GOLF SWING ANALYSES WITH A MONOCULAR CAMERA BASED HUMAN POSE ESTIMATION (IEEE, 2022)

🟡 Introduction

  • The crucial thing for sports analyses is how to understand and judge the motion of sports players (스포츠 분석에서 중요한 것은 스포츠 선수의 움직임을 어떻게 이해하고 판단하는지 임)
  • 따라서, 정확하고 효율적인 인간 자세 추정(HPE) 방법은 신뢰할 수 있는 골프 스윙 분석에 중요함
  • 그러나, 골프 스윙 분석을 위한 HPE는 입력 형식, 모션 블러 및 자체 폐쇄 때문에 다른 HPE 작업과 다름
  • 따라서, 본 논문에서는 골프 스윙 분석을 위해 모바일 장치에서 실행할 수 있는 GolfPose라는 임시 기반 경량 2D HPE 파이프라인을 제안함
    : 정확한 포즈 추정 결과를 제공하고 모바일 장치에 배포할 수 있는 경량 단안 시간 기반 2D 인간 포즈 추정 모델
    : segment 기반 골프 클럽 감지(GCD)를 통합하여 자세 추정 정확도를 더욱 향상
    : 120fps 이상의 500개 이상의 비디오와 120,000개의 이미지가 포함된 주석이 달린 골프 스윙 데이터 세트

🟡 Realted work

  • 2D Pose Estimation
    : 처음에는 keypoints의 위치를 이미지에서 직접 회귀할 수 있지만, 나중에는 keypoints 히트맵을 추정한 후, keypoints 좌표가 가장 높은 값을 갖는 위치를 선택하는 것이 주 방법임
    : 현재, human pose estimation (HPE) 방법은 human body bounding boxes (인체경계상자)를 먼저 감지 하는지 여부에 따라 (1) bottom-up (상향식), (2) top-down (하향식) 접근법으로 크게 구분할 수 있음
    : Top-down (하향식) 접근법은 먼저, 인간 경계 상자를 감지한 후, 모든 경계 상자 영역 내에서 인간 keypoints 감지를 수행함
    : Bottom-up (상향식) 접근법은 먼저 이미지의 모든 인간에 대한 모든 keypoints를 감지한 후 동일한 사람에 속한 keypoints를 개별적으로 연관시킴
    : 그러나, 데이터 세트의 한계와 와일드 비디오에서의 정확한 인적 추적의 어려움으로 인해 단일 프레임 기반 HPE 작업이 주요 초점이었음
    : 골퍼의 움직임이 제한되어 있으며 자체 폐쇄뿐만 아니라 모션 블러도 무시할 수 없음
    : 따라서 본 연구에서는 시간 정보를 활용하고 HPE 정확도를 향상시키기 위해 시간 기반 HPE 모델을 제안함
  • 🏋️‍스포츠 분석
    : 행동 및 궤적 분석 선수들이 훈련을 할 때 성과 평가가 매우 필요함
    : 수영, 탁구[11], 축구[12], 골프와 같은 일부 스포츠 경기에서는 복잡한 운동 동작을 수행하는 능력이 가장 중요함
    : 따라서, 플레이어의 캡처한 동작에 대한 심층 분석 및 평가는 기술을 향상하고 게임에서 더 경쟁력을 갖추는 데 중요함
    : Object trajectory analyses (물체 궤적 분석)은 플레이어의 성과와 목표물과의 상호 작용을 평가하는 또 다른 방법을 제공할 수 있음

🟡 Methods

  • GolfPose는 골프 플레이 시나리오를 대상으로함
  • 목표는 모바일 장치에서 가져온 단안 스윙 비디오에서 정확한 3D 포즈 추정을 생성하는 것임
  • 2D GolfPose는 먼저 선수의 몸과 골프 클럽 모두에서 신뢰할 수 있는 키포인트를 생성한 다음 추가 분석을 위해 3D 포즈로 체계적으로 변환
  • First, we build a CNN-based temporal 2D HPE model based on an existing image-based HPE framework (먼저 기존 이미지 기반 HPE 프레임워크를 기반으로 CNN 기반 임시 2D HPE 모델을 구축)
  • our input is a short clip of a video sequence instead of a single image, we are able to utilize temporal information to increase the accuracy of keypoint prediction (입력은 단일 이미지가 아닌 비디오 시퀀스의 짧은 클립이므로 시간 정보를 활용하여 키포인트 예측의 정확도를 높일 수 있음)
  • Then, we implement a line segment algorithm, a traditional computer vision technique, to fix inaccurate predictions on golf club keypoints generated from the 2D HPE model (그런 다음 기존 컴퓨터 비전 기술인 라인 세그먼트 알고리즘을 구현하여 2D HPE 모델에서 생성된 골프 클럽 키포인트에 대한 부정확한 예측을 수정)
  • 2D GolfPose 아키텍처의 전체 파이프라인에 대한 그림은 아래와 같음

🟡 EXPERIMENTAL RESULTS

  • 골프채 감지에 대한 그림 (Golf club detection (GCD))
    : segment 감지 후 노이즈가 많은 segment 감지 결과
    : GCD는 먼저 Jmd 및 Jhandle의 도움으로 라인 세그먼트를 필터링한 다음 골프 클럽을 형성하기 위해 잠재적인 시작 라인 세그먼트를 찾음
    : 그림과 같이 녹색 세그먼트가 시작 세그먼트이고 노란색, 주황색 및 파란색 세그먼트가 검색 목록에 추가될 후보인 경우 해당 세그먼트 사이의 거리에 따라 주황색 세그먼트가 녹색으로 가장 가깝게 연결됨. 세그먼트가 생성되고 병합되어 다음 시작 세그먼트가 됨
    : 골프 클럽의 일부 키포인트를 포함하여 총 38개의 키포인트가 데이터 세트에 주석으로 표시됨
    : 비디오 해상도와 데이터 세트에 기록된 플레이어의 크기가 상대적으로 유사하기 때문에 2D 평균 픽셀 오류(MPE)를 평가 m으로 사용됨
  • Dataset and evaluation metrics
    : 120,000 images 중 100,000은 training, 20,000 validation and testing에 사용
    : 비디오 기반이며 모션 블러를 제거하기 위해 120fps 이상으로 기록된 데이터 사용
  • Training details
    : GolfPose는 모바일 기기용으로 설계되었기 때문에 공개적으로 사용 가능한 TensorFlow 프레임워크를 사용하여 시스템을 구현하고 모바일 추론을 위해 TensorFlow Lite 모델로 변환함
    : 포즈 추정 모델은 종단 간 방식으로 훈련됨. 모든 매개변수는 σ = 0.001인 0-평균 가우스 분포에서 무작위로 초기화됨
    : 매개변수를 업데이트하기 위해 미니 배치 크기가 32인 Adam 최적화 프로그램을 사용함
    : 총 훈련 epoch 수는 150이고 초기 학습률은 0.001로 설정되어 90번째 및 120번째 epoch에서 10배 감소함
    : 비디오 프레임에서 감지되고 잘린 인간 경계 상자는 특정 종횡비 (즉, 높이: 너비 = 4:3)로 고정됨
    : 잘린 경계 상자의 크기는 256 × 192로 조정되어 원래 종횡비와 검정색 배경의 패딩을 유지하고 입력 이미지로 사용됨
    : 임의 회전, 임의 크기 조정 및 뒤집기와 같은 일반적인 데이터 증대 작업 외에도 특정 조건에서 시스템 견고성을 높이는 것을 목표로 몇 가지 추가 증대 작업을 추가함 (이미지 밝기를 임의로 조정)
    : 또한 카메라 흔들림으로 인한 모션 블러를 시뮬레이션하기 위해 원본 이미지에 무작위 가우시안 노이즈와 다중 프레임 평균을 추가함
    : 본 연구의 training은 하나의 NVIDIA 1080Ti GPU에서 수행되며 training 하는 데 약 36시간이 걸림

🟡 Conclusion

  • 효율적이고 정확한 골프 스윙을 위해 모바일 기기에 적용할 수 있는 새로운 경량 시간 기반 2D 인체 포즈 추정 방법인 GolfPose와 골프 클럽의 키포인트 예측 정확도를 더욱 향상시키는 골프 클럽 검출 방법을 제안함
  • 이 파이프라인의 성공은 플레이어가 움직이지 않는다는 가정 하에 있음. 이는 골프 스윙에서 정당화되지만 시간 기반 인간 포즈 추정을 위해 인간 추적 메커니즘을 추가해야 하는 다른 스포츠의 플레이어 주위를 움직이는 데 적용할 수 없음

🟢 Title

🟢 Introduction

  • 현재 모션 캡처를 위한 특수 시설이 갖춰져 있으나, 환경을 설정하는데 비용이 많이 들고 플레이어를 특정 장소로 제한하므로 아마추어 골퍼에게는 비실용적이고 불편할 수 있음
  • 따라서, 본 연구에서는 아마추어 선수들이 자신의 스윙을 평가할 수 있는 경량 접근 방식을 연구하여 골프 교육에서 요구되는 코치의 듭급 매기기 및 오프 클래스 감독을 돕는 방법이 필요하다고 판단함
  • Deep Convolutional Neural Network를 통해 인체 관절을 국부화하는 인간 자세 추정(HPE)이 가능해짐
  • 특히, 골프 스윙은 3D 동작이므로 이미지 또는 동영상을 기반으로 하는 3D HPE를 활용하여 골프 스윙 분석을 용이하게 할 수 있음
  • 인공 지능(AI) 기술의 빠른 발전을 활용하여 점점 더 많은 연구자들이 골프 분석 분야에 머신 러닝과 딥 러닝을 도입하고 있음
  • 대부분 이전 연구는 정확한 사람의 자세 추정이나 골프 스윙의 조잡한 키 이벤트 감지에 중점을 둠
  • 이전연구의 부족한 점 : 세밀한 움직임 정렬과 비교에 기반한 전체적인 골프 스윙 평가는 부족함
  • 또한, 사람의 자세는 시간에 따라 변하기 때문에 인체의 움직임을 평가하는 것은 어려운 작업임
  • 본 연구의 제안은 다음과 같음
    : 영상 기반의 3차원 인간 포즈 유사성 평가에 많은 훈련 데이터가 필요하지 않고 가볍고 음성 인식에 널리 사용되는 DTW(Dynamic Time Warping)을 소개함
    : 골프 선수를 위한 전체 연속적인 스윙 움직임을 고려하는 평가 체계를 제공하는 것을 목표로 함
    : 스윙 기반 분석을 위해 "DHU-Golf"라는 데이터 세트를 수집 (대학 수업에서 얻은 데이터 셋)
    : 3D 인체 포즈 추정을 위한 첨단 기술을 활용하여 스포츠 교육에 유용하고 아마추어 선수의 골프 스윙 연습에 도움이 될 수 있는 자동 골프 스윙 등급 시스템을 제안
    : 한 쌍의 시간적 시퀀스를 매칭하기 위한 DTW는 스윙 비디오를 분석하는 과정에서 혁신적으로 채택되어 스포츠 영역에서 움직이는 포즈 그레이딩을 위한 기본 솔루션을 제공

🟢 PROPOSED METHOD

  • 골프 스윙 성능을 평가하기 위한 워크플로 제안
    : 포즈 추정, 포즈 방향 정렬을 통한 키 프레임 감지, 동적 시간 왜곡 기반 그레이딩을 포함한 여러 주요 부분으로 구성
  • Dynamic Time Warping
    : 골퍼마다 어드레스 ~ 피니쉬까지의 평균 타이밍은 다를 수 있음
    : 움직임 리듬의 영향을 완화하기 위해 음성 인식에서 널리 사용되는 DTW[14]의 개념을 채택하여 하나의 구문이 다른 구문과 일치하는지 확인
    : DTW는 두 시계열 데이터 사이의 시간 인덱스가 잘 동기화되지 않더라도 효과적으로 두 시계열 데이터를 비교
  • Grading
    : DTW를 통해 두 비디오 간의 프레임 일치, 즉 φa(k)와 φb(k)를 식별할 수 있음
    : 현재 프레임과 일치하는 프레임을 검색하여 다른 비디오에서 해당 포즈를 쉽게 찾을 수 있음
    : DTW가 시간적 차원에서 포즈를 정렬한 후 K 정렬된 프레임에서 관절의 평균 거리를 사용하여 공간적 관점에서 스윙 포즈 품질을 평가함
    : 등급 계산은 비유사성 점수에 대해 정의되므로 값이 낮을수록 두 계열이 더 유사함을 의미함
    : 두 포즈 벡터에 대해 수행되는 d(•, ) 함수로 유클리드 거리를 사용함

🟢 DATASET

  • 휴대폰(Huawei Mate 20 X) 카메라를 사용하여 "DHU-Golf"라는 데이터 세트를 수집
  • 다양한 개인(학생)을 위한 총 190개의 비디오가 있으며 전문적인 숙련된 교사의 5개의 추가 비디오가 있음
  • 대부분의 비디오는 3초에서 5초 동안 지속되며 프레임 속도는 초당 30임
  • 각 비디오와 관련하여 전문가로부터 GT(ground truth)로 등급 점수(1~10)를 받음

🟢 RESULTS
(1) Key Frame and Human Pose
: 2D 키포인트 추출기[15]를 통해 2D 인간 포즈를 얻을 수 있음
: 관절의 위치가 시간에 따라 어떻게 변하는지 직관적으로 보기 위해 17개 관절의 정규화된 x 및 y 값을 표시함
: 나중에 이 기간 내에 DTW 기반 채점을 수행

: 2D 키포인트를 입력으로 사용하고 추정된 3D 포인트를 출력하는 VideoPose3D[8]를 활용하여 3D 인간 포즈를 추출
: 다른 비디오의 포즈 스케일과 방향이 약간 다르기 때문에 사람 포즈 정렬을 위한 등록 단계가 필요

(2) Grading Analysis
: (a) 두 개의 3D 포즈 시리즈(쿼리 및 참조 B^에서)가 주어지면 DTW를 사용하여 뒤틀림 경로를 얻음
: (b) G(A^,B^)의 등급을 계산
: G 코드는 거리 측정을 기반으로 정의되므로 값이 작을수록 참조와 유사함
: 즉, 추정된 등급의 값이 작을수록, 더 좋은 골프 스윙을 나타냄
: 나쁜 스윙과 좋은 스윙에 대한 두 가지 예는 아래의 그림과 같음
: 왼쪽 - 팔꿈치가 구부러짐 (나쁜 스윙 : 잘못된 자세)
: 오른쪽 - 좋은스윙 (더 정확한 포즈)

👍 DTW 기반 채점 방법을 다른 두 가지 전략과 비교하였음

  • 1)
    : 시간 정렬 없이 채점, 즉 Address to Finish 기간 내에서 쿼리의 프레임을 균등하게 보간하거나 샘플링하여 참조와 길이를 동일하게 만듦
    : 그런 다음 모든 프레임에서 누적된 거리를 계산하고 프레임 수로 평균을 매김
  • 2)
    : SwingNet 기반 그레이딩, 즉 SwingNet[11]을 사용하여 쿼리에서 8개의 주요 이벤트를 감지
    : 그런 다음 이러한 키 프레임에 대한 참조까지의 평균 거리를 계산함 (아래의 표 참고)

👍 추정된 등급의 평균과 분산을 보여줌
: 거리에 따라 등급이 결정되기 때문에 값이 작을수록 두 동영상이 더 유사하다는 의미
: DTW 기반 접근 방식은 0.4976의 가장 작은 평균 값을 달성하며, 이는 정렬이 없는 등급(2.2194)보다 훨씬 작음
: 두 시계열을 정렬할 때 DTW의 효율성을 보여줌
: SwingNet은 주요 이벤트에 대해 잘못된 예측을 하기 쉬우므로 참조(2.0385)에 대한 큰 움직임 불일치가 발생함
: 뒤틀린 두 시계열을 기반으로 등급을 매기는 것이 더 합리적임
: 또한, 우리는 r로 표시되는 Pearson 상관 계수[20]를 사용하여 모든 테스트 비디오의 추정된 그레이딩 벡터와 GT의 해당 그레이딩 벡터 간의 관계를 측정함
: 일반적으로 값은 -1과 +1 사이에서 변하며 0은 상관 관계가 없음을 나타냄
: -1 또는 +1의 상관 관계는 정확한 선형 관계를 의미함
: DTW 기반 방법의 경우 r은 -0.2157이고 p-값은 0.0028
: DTW 기반 방법에서 얻은 결과와 전문가의 등급 사이에는 상관 관계가 약간 약하지만 상관 관계가 있음
: 그럼에도 불구하고 본 연구에서 제안한 DTW 기반 채점 방법은 다른 두 가지 기준 접근 방식보다 훨씬 우수함

🟢 CONCLUSIONS

  • 스포츠 영상을 바탕으로 공정한 품질 평가를 내리기는 어려움
  • 본 논문에서는 골프 스윙을 평가하기 위한 이동 포즈 그레이딩의 기준 방법을 제안함
  • 워크플로는 인체 포즈 추정, 키 프레임 감지 및 방향 정렬, DTW 기반 그레이딩을 비롯한 여러 구성 요소로 구성됨
  • 실험은 비디오 기반 분석에서 DTW를 사용하는 가능성을 보여주지만 여전히 개선의 여지가 많음
  • 자동 채점 시스템은 스포츠 교육에 도움이 될 것임
  • 향후 작업에서는 데이터 세트를 확대하고 등급 성능을 비교하기 위해 종단 간 딥 러닝 기반 접근 방식을 탐색할 것임

🔵 다음시간에 리뷰 할 논문 제목

profile
best of best

0개의 댓글