scene에 대한 semantic, spatial, temporal structure를 추론하는 것은 자율주행에 있어서 중요한 task이다.
⇒ dynamic scene을 정확히 받아올 수 있다.
BEV semantic prediction
NEAT ⇒ Neural Attention Fields for e2e driving
query location(x, y, t)과 interpretable attention map을 사용해서 해결
(K : class labels)
query location은 에 추가로 target location 가 추가되어, 의 형태를 가진다.
MLP를 통해 attention map을 뽑아내는 과정은 다음과 같은 형태를 지닌다.
5 fully-connected ResNet Block으로 구성되어 있으며, 중간에 을 통해, CBN(conditional batch normalization)을 수행하는 구조로 이루어져 있다.
CBN?