Author: AIST, Keio Univ., Yuchi Ishikawa
Reading date: February 26, 2022
Submitted date: July 14, 2020
Summary: ASRF
Type: Paper
ASRF - Action Segment Refinement Framework
모델은 long-term feature extractor와
2개의 branch( the Action Segmentation Branch (ASB) & the Boundary Regression Branch (BRB))로 구성되어있다.
Long-term feature extractor는 공유된 feature들을 넓은 temporal receptive field와 함께 2개의 branch에 제공한다.
ASB는 action classes를, BRB는 action boundary probabilities를 예측한다.
ASB에서 나온 output들을 BRB의 예측한 action바운더리를 이용하여 refine한다.
둘은 서로 보완해주는 관계로 action segmentation에서 조심해야할 over-segmentation error를 줄여준다.
action segmentation 모델들의 흐름 등을 설명하였는데 이후 Action Proposal Generation에 대하여 나왔다.
이 분야는 생소해서 유의깊게보았다. 2가지 타입의 접근이 있는데 하나는 anchor-based와 anchor-free approaches이다.
이 논문 모델은 anchor-free approaches에서 영감을 받아 action boundary regression network를 추가적으로 사용하였다.
Long-term feature extractor
2 branched
2개의 브랜치 모두 features를 입력으로 받고 frame-level action predictions, action boundary probabilities를 아웃풋으로 내보낸다.
목적 : action segments사이 long-term depedencies를 잡아내고 rich features를 추출하는 것
→
dilated residual layer가 있는 TCN을 사용하였다. 그래야 full temporal resolution과 넓은 receptive field로 컨볼루션 연산을 할 수 있기 때문이다.
long-term depedencies를 잡아내고 이후 브랜치들에 공유되는 피처들을 추출한다.
논문에서는 각 0.5비율의 dropout layer가 붙고 64개의 필터가 있는 10 dilated residual layers, 그리고 dilation rate는 매번 residual conv마다 2배씩 늘어난다.
목적 : frame-wise action classes C 를 예측하는 것
1D convolutional layer와 softmax를 사용한다. 그러나 여기서 over-segmentation error가 잘 발생하기 때문에 multi-stage architecture를 추가했다.
첫 레이어에서는 를 입력으로 받아 첫 predictions 결과를 내고 이후 레이어에서 이를 계속 refine하는 과정을 거친다.
이러한 구조는 over-segmentation 에러를 막으면서 temporal depedencies를 알아내고 action segments를 예측하기에 좋다.
논문에서는 각 stage는 커널 사이즈가 1, 64개의 필터를 가진 single temporal convolution, 10 dilated residual convolutions, 그리고 feature dimenstion을 action 클래스 크기까지 감소를 위한 다른 temporal convolution을 포함한다.
첫 prediction이후 stage는 3개
몇몇 TCN들로 부터 action segmentation 성능을 좋게 만들수 있지만, 여전히 over-segmentation 문제가 남아있다.
목적 : action boundary probabilities 예측 (0 ~ 1)
→ action class에 상관없이 시작과 끝인지 아닌지,
나중에 결과를 refine하는 과정에서 사용된다.
클래스를 알고 학습하는 방법보다 이렇게 클래스에 상관없이 진행하는 BRB는 taining data를 훨씬 적게 필요로하고 robustness를 향상시킨다.
ASB로 부터 class결과 C를 action boundary probabilities 를 이용하여 refine한다.
로 부터 action boundaries() 결정
B를 frame-level prediction으로 정의한다.
B : action boundary에 대한 prediction
frame별 action 예측 결과와 action boundary 예측결과 이렇게 ASB, BRB에서 2개의 아웃풋이 나오기 때문에 loss도 2개에 대한 loss를 합한다.
논문에서는 GTEA에서는 를 0.2, 50 Salads와 Breakfast dataset에서는 0.1로 설정하였다.
분류문제에서 자주 사용하는 cross-entropy loss를 사용한다.
그러나 이 방법은 temporal transtion에 대한 제재가 없기 때문에 over-segmentation을 막기에는 부족하다.
그래서 추가적은 Truncated Mean Squared Error(TMSE)를 사용하였다.
T : video길이, N : 클래스 개수, : probabilities transition 에 대한 threshold
2개의 다른 Loss 함수.
class weight에 대한 cross entropy loss - action segment가 얼마나 자주 바뀌는지
학습시키는 동안 imbalance하기 때문에 median frequency balancing(각 class별 가중치를 계산하여 class frequency의 median으로 나눈다.)을 사용한다. 이후 실험에서 Focal Loss와 비교한다.
TMSE를 변형시킨 Gaussian Similarity-weighted TMSE(GS-TMSE) - TMSE는 프레임 사이 action probabilities transition을 smooth하기 위해 모든 프레임에 불이익을 준다. 그러나 이렇게 하면 실제로 바뀌어야할 부분에도 불이익을 준다.
이 부분을 해결하기 위해 가우시안 커널을 추가한다.
: frame t의 similarity 인덱스 , : 분산
가우시안 커널은 프레임의 similarity를 기반으로 하기 때문에, 이 함수는 비슷한 weight인데 큰 차이가 있는 근접한 프레임에 불이익을 준다.
논문에서는 으로 맞췄다.
ASB에서 각 prediction의 loss function →
ASB에서 각 prediction loss의 평균 →
: ASB에서 predictions 수 ( 논문 프레임워크에서는 4 )
: frame t에 대한 ground truth, action boundary probability
그리고 ASB처럼 평균 →
(d)에서 잘못된 예측값을 확인할 수 있는데
이는 ASB에서부터 잘못된 segment로 나오면 완전히 다른 segment로 재할당할 수 없다는 것을 보여주기도 한다.
BRB이외의 다른 postprocessing methods
논문에서는 smoothing 방식은 ASRF보다 영향력이 적고, Similarity는 부정적인 영향을 끼치며, relabeling은 다른 두 방법들 보다는 좋지만 하이퍼파라미터 의 영향을 많이 받기 때문에 ASRF 방식이 다른 방법들보다 우수하다고 한다.
single TCN vs ASRF
3 stages가 가장 좋았다. 이상 넘어가면 오버피팅(특히 50 Salads dataset에서)