인간의 움직임 회복을 위한 심층 양방향 주의 네트워크
Human motion capture (mocap) data, recording the movement of markers attached to specific joints, has gradually become the most popular solution of animation production. However, the raw motion data are often corrupted due to joint occlusion, marker shedding and the lack of equipment precision, which severely limits the performance in real-world applications.
특정 관절에 부착된 마커의 움직임을 기록하는 인간 모션 캡처(모캡) 데이터는 점차 애니메이션 제작의 가장 인기 있는 솔루션이 되었다. 그러나 원시 모션 데이터는 관절 폐색, 마커 차폐 및 장비 정밀도 부족으로 인해 종종 손상되어 실제 응용 프로그램의 성능을 심각하게 제한한다.
Since human motion is essentially a sequential data, the latest methods resort to variants of long short-time memory network (LSTM) to solve related problems, but most of them tend to obtain visually unreasonable results. This is mainly because these methods hardly capture long-term dependencies and cannot explicitly utilize relevant context, especially in long sequences.
인간의 움직임은 본질적으로 순차적인 데이터이기 때문에 최신 방법은 관련 문제를 해결하기 위해 긴 단시간 메모리 네트워크(LSTM)의 변형에 의존하지만 대부분 시각적으로 불합리한 결과를 얻는 경향이 있다. 이는 주로 이러한 방법이 장기 종속성을 거의 포착하지 못하고 특히 긴 시퀀스에서 관련 컨텍스트를 명시적으로 활용할 수 없기 때문이다.
To address these issues, we propose a deep bi-directional attention network (BAN) which can not only capture the long-term dependencies but also adaptively extract relevant information at each time step. Moreover, the proposed model, embedded attention mechanism in the bi-directional LSTM (BLSTM) structure at the encoding and decoding stages, can decide where to borrow information and use it to recover corrupted frame effectively. Extensive experiments on CMU database demonstrate that the proposed model consistently outperforms other state-of-the-art methods in terms of recovery accuracy and visualization.
이러한 문제를 해결하기 위해, 우리는 장기 의존성을 포착할 수 있을 뿐만 아니라 각 시간 단계에서 관련 정보를 적응적으로 추출할 수 있는 심층 양방향 주의 네트워크(BAN)를 제안한다. 또한, 인코딩 및 디코딩 단계에서 양방향 LSTM(BLSTM) 구조에 내장된 주의 메커니즘인 제안된 모델은 정보를 빌릴 위치를 결정하고 손상된 프레임을 효과적으로 복구하는 데 사용할 수 있다. CMU 데이터베이스에 대한 광범위한 실험은 제안된 모델이 복구 정확도와 시각화 측면에서 다른 최첨단 방법을 지속적으로 능가한다는 것을 보여준다.
In this work, we have proposed the bi-directional attention network, which can capture long-term dependency and motion correlation from forward and backward directions. This method effectively utilizes the spatio-temporal information of human motion by learning the relevant feature representation of each pose, which dramatically expands the performance of motion modeling.
본 연구에서, 우리는 전방 및 후방 방향에서 장기 의존성과 움직임 상관관계를 포착할 수 있는 양방향 주의 네트워크를 제안했다. 이 방법은 각 포즈의 관련 특징 표현을 학습하여 인간 모션의 시공간 정보를 효과적으로 활용하여 모션 모델링의 성능을 획기적으로 확장한다.
We demonstrate that our model significantly improves the performance of human motion recovery concerning accuracy and visualization results, even in the case of long sequences or different missing distributions.
However, there are still two defects that cannot be ignored:
High time consumption, because the LSTM encoding and attention weight computation are non-parallel; Performance degradation for handling high missing ratio (> 80%). Fortunately, the cases of high missing ratio rarely occur in realworld applications. In the future work, we plan to use the idea of the generative model to further expand the scope of application of the proposed model and consider applying it to other tasks of human motion.
우리는 우리의 모델이 긴 시퀀스 또는 서로 다른 누락된 분포의 경우에도 정확성 및 시각화 결과와 관련된 인간 동작 복구 성능을 크게 향상시킨다는 것을 보여준다.
그러나 무시할 수 없는 두 가지 결점이 있습니다:
LSTM 인코딩과 주의 가중치 계산이 병렬이 아니기 때문에 시간 소모가 크다. 높은 누락 비율(80% 이상)을 처리하기 위한 성능 저하. 다행히도 높은 누락 비율의 사례는 실제 응용 분야에서 거의 발생하지 않는다. 향후 작업에서는 생성 모델의 아이디어를 활용하여 제안된 모델의 적용 범위를 더욱 확대하고 이를 인간 모션의 다른 작업에 적용하는 것을 고려할 계획이다.
Human motion capture has gradually become the most popular motion storage technology in the industry, attracting a large number of scholars’ interest in research [Zhou et al., 2018; Bütepage et al., 2017; Mall et al., 2017]. It can be used in virtual reality, special effects movies, electronic games, and other related fields[Lu et al., 2018]. However, the raw mocap data may fail in completely recording the movement of all joints (including missing joint) due to inevitable reasons, such as marker falling off or joint occlusion.
인간 모션 캡처는 점차 업계에서 가장 인기 있는 모션 스토리지 기술로 자리 잡으며, 많은 학자들의 연구 관심을 끌고 있습니다 [Zhou et al., 2018; Büte page et al., 2017; Mall et al., 2017]. 가상 현실, 특수 효과 영화, 전자 게임 및 기타 관련 분야에서 사용될 수 있습니다 [Lu et al., 2018]. 그러나 Raw mocap 데이터는 마커가 떨어지거나 관절 폐색과 같은 불가피한 이유로 인해 모든 관절의 움직임(관절 누락 포함)을 완전히 기록하지 못할 수 있습니다.
This inaccuracy and incompleteness of the captured data are often encountered even by professional motion capture equipment[Cui et al., 2019]. Further, corrupted motion sequences usually reveal a complex pattern in following aspects. First , the distribution of missing joints is unknown and arbitrary. Second, if the missing trajectory is too long, the information that can be used to repair the damaged motion will be insufficient. Third, the recovery accuracy will decrease rapidly in the case of large-scale movement (e.g., dancing, boxing). These factors present a major challenge for recovering the missing joints effectively.
캡처된 데이터의 이러한 부정확성과 불완전성은 전문 모션 캡처 장비에서도 종종 발생한다[Cui et al., 2019]. 또한, 손상된 모션 시퀀스는 일반적으로 다음과 같은 측면에서 복잡한 패턴을 드러냅니다. 첫째, 결측 관절의 분포는 알려지지 않았으며 임의적이다. 둘째, 누락된 궤적이 너무 길면 손상된 동작을 복구하는 데 사용할 수 있는 정보가 부족해진다. 셋째, 대규모 이동(예: 춤, 복싱)의 경우 회복 정확도가 급격히 감소할 것이다. 이러한 요인들은 잃어버린 관절을 효과적으로 복구하기 위한 주요 과제를 제시한다.
Recently, some researchers have attempted to model human motion using deep neural networks [Mall et al., 2017;
Holden, 2018]. They present various structures to solve related problems of recovering missing joints, which adequately analyze and utilize the spatio-temporal correlation of human motion[Gui et al., 2018].
최근, 일부 연구자들은 심층 신경망을 사용하여 인간의 움직임을 모델링하려고 시도했다[Mall et al., 2017;
Holden, 2018]. 그들은 누락된 관절을 복구하는 관련 문제를 해결하기 위해 다양한 구조를 제시하며, 이는 인간 움직임의 시공간 상관관계를 적절하게 분석하고 활용한다[Gui et al., 2018].
Especially, the BLSTM-based recurrent autoencoder[Mall et al., 2017] pave a golden path for modeling human motion. Although these models have made tangible progress, the performance may degrade rapidly over a long motion sequence because recurrent networks hardly capture the long-term temporal dependency and overcome the error accumulation problem. Besides, different motion frames should contribute unequally to the network while the previous models cannot consciously treat the context differently.
특히 BLSTM 기반 반복 자동 인코더[Mall et al., 2017]는 인간의 움직임을 모델링하기 위한 황금 경로를 구축한다. 이러한 모델은 가시적인 진전을 이루었지만, 반복 네트워크는 장기적인 시간 의존성을 거의 포착하지 못하고 오류 누적 문제를 극복하지 못하기 때문에 긴 모션 시퀀스에 걸쳐 성능이 급격히 저하될 수 있다. 또한, 이전 모델은 컨텍스트를 의식적으로 다르게 처리할 수 없는 반면, 서로 다른 모션 프레임은 네트워크에 불평등하게 기여해야 한다.
To address these aforementioned issues,we propose a deep bi-directional attention network (BAN) for motion recovery which leverages the attention mechanism and bi-directional long short-time memory network (BLSTM). Our inspiration comes from the recent theories of human attention which posit that human behavior can be efficiently modeled by the attention mechanism [Bahdanau et al., 2014; Zhou et al., 2016; Yang et al., 2016].
이러한 문제를 해결하기 위해 주의 메커니즘과 양방향 긴 단시간 메모리 네트워크(BLSTM)를 활용하는 모션 복구를 위한 심층 양방향 주의 네트워크(BAN)를 제안한다. 우리의 영감은 인간 행동이 주의 메커니즘에 의해 효율적으로 모델링될 수 있다고 주장하는 인간 주의의 최근 이론에서 비롯된다[Bahdanau et al., 2014; Zhou et al., 2016; Yang et al., 2016].
Specifically, the structure of our model consists of two components, encoder, and decoder, in which the attention mechanism is embedded to efficiently capture long-term temporal dependencies. In contrast to traditional attention, the proposed method adaptively calculates the relevant inputs of the forward and backward directions of BLSTM at the current time according to the correlation between the previous hidden state in both directions and all inputs.
구체적으로, 우리 모델의 구조는 장기적인 시간적 의존성을 효율적으로 포착하기 위해 주의 메커니즘이 내장된 인코더와 디코더의 두 가지 구성 요소로 구성된다. 기존의 주의와 달리, 제안된 방법은 양방향의 이전 숨겨진 상태와 모든 입력 사이의 상관 관계에 따라 현재 BLSTM의 전후 방향의 관련 입력을 적응적으로 계산한다.
The long-term temporal dependencies are learned from chronologically arranged data and also from the reverse-chronological ordered data, which takes into account both forward and backward dependencies simultaneously. For human motion recovery, our BAN network explicitly selects the relevant context and selectively introduces the information from specific positions of the motion sequence to repair the damaged motion frame.
장기적인 시간적 의존성은 시간순으로 배열된 데이터와 전진 및 후진 종속성을 동시에 고려하는 역-시간 순서 데이터에서 학습된다. 인간 모션 복구를 위해 BAN 네트워크는 관련 컨텍스트를 명시적으로 선택하고 손상된 모션 프레임을 복구하기 위해 모션 시퀀스의 특정 위치에서 정보를 선택적으로 도입한다.
The specific contributions of this paper are summarized as follows: 1) We propose a novel bi-directional recurrent autoencoder for human motion recovery using attention mechanism. To our best knowledge, this is the first research attempt to exploit attention mechanism of BLSTM structure for human motion recovery. 2) We introduce the attention mechanism to efficiently capture long-term dependency and focus on the most important semantic information. 3) The experimental results demonstrate that the BAN achieves superior recovery accuracy and higher-quality visual results even for long-term motion sequences.
본 논문의 구체적인 기여는 다음과 같이 요약된다: 1) 주의 메커니즘을 사용한 인간 움직임 복구를 위한 새로운 양방향 반복 자동 인코더를 제안한다. 우리가 아는 한, 이것은 인간의 움직임 회복을 위해 BLSTM 구조의 주의 메커니즘을 활용하는 첫 번째 연구 시도이다. 2) 우리는 장기 의존성을 효율적으로 포착하고 가장 중요한 의미 정보에 초점을 맞추기 위해 주의 메커니즘을 도입한다. 3) 실험 결과는 BAN이 우수한 회복을 달성한다는 것을 보여준다장기 모션 시퀀스의 경우에도 매우 정확성과 고품질의 시각적 결과를 얻을 수 있습니다.