Reference map 에 대한 query image 가 FoV와 함께 주어질 때 2D pose 를 추정하고자 한다.
General MCL은 measurement model을 로 정의하며 이는 map 상의 camera pose 에 의해 관측되는 image 의 likelihood를 의미한다.
베이즈 정리에 따라 MCL은 posterior distribution 를 추정한다. 는 normalization constant로 무시할 수 있으며 )는 prior camera pose distribution으로 uniform distribution을 가정한다.
Query image와 camera pose hypotheses 두 개의 도메인의 similarity를 측정하기 위해 동일한 space에서의 deep metric learning을 활용한다.
Geometric한 구조를 담기 위해 일반적인 flattened descriptor 대신 circular feature를 활용한다.
는 feature segment의 수를 의미하며 는 범위의 local direcitonal FoV를 인코딩한다.
Floorplan이나 occupancy grid 같이 occupancy 정보를 가지고 있는 2D map representation 으로부터 point들을 smapling하여 2D point cloud 을 만든다.
각 point 는 location, normal vector, optional semantic information을 인코딩한다.
2D variant of PointNet을 활용하여 각 point 마다 distance에 대한 feature 과 incident-angle에 대한 feature 를 담은 codebook을 만든다. codebook은 렌더링할 때 활용된다.
라 할 때 distance 와 incident-angle 는 아래 식에 의해 구할 수 있으며 feature 는 로 표현할 수 있다. 는 pre-defined maximum distance를 의미한다.
식(4)와 유사하게 non-integer indexing에 대해서는 가까운 두 code를 linera interpolation하여 구한다.
가 visibility test를 통과하면 를 아래 식에 의해 circular feature 로 투영하며 투영된 point들은 각 segment별로 average 된다. 는 viewing ray의 각도를 의미한다.
Triplet loss를 통해 를 anchor로 하여 GT camera pose에 대한 circular feature 와는 positive가 되도록, random하게 sampling한 camera pose에 대한 circular feature 와는 negative가 되도록 학습한다.
Similarity function 와 triplet loss는 모두 elementwise한 비교를 하기 때문에 context 정보를 담지 못한다.
따라서, normalized feature segment의 평균인 를 활용한 context loss를 제안한다.
Refinement branch에서는 GT camera pose로부터 0.5m radius, 30 degree angle 이내에서 sampling한 circular features를 활용해 regression 한다.