
security inpsecion은 X-Ray images를 통해 수하물 내 금지된 물품을 확인하는 것을 목표로 하며, terrorist 공격을 방지하고 사회적 안전을 보장하는 중요한 역할.
traditional security inspection은 inspectors(검사자들)이 scan된 X-Ray image를 monitor로 감시해야 하지만, 이 과정에서 human-error가 발생할 수 있으며,
overlapped or cluttered items (겹치거나 복잡하게 배치된 물품)들은 식별하기 어렵다.
(이전 연구)
최근 몇 년 동안, Deep CNNs의 발전과 함께 일부 연구들은 object detection방법을 prohibited item detection에 적용하려는 시도를 해왔으며, 이러한 방법과 관련 dataset들은 유망한 성능을 보여주고 있다.


CPID의 효과를 검증하기 위해, 우리는 CPID를 서로 다른 two-stages detection 방법에 구축하고,(skip)

cut-and-paste strategy는 object detection에서 유망한 data augmentation 방법이며,
우리는 cust-and-paste 방법을 prohibited item detection task에 처음으로 도입했다.
구체적으로, 우리의 ORCP(Online Random Cut-and-Paste)는 segmentation mask annotation에 따라 금지 물품을 cut(잘라내고) 금지 물품 candidate set 을 만든다.
그 다음, 에서 여러 물품을 random하게 선택해 에서 가져온 background image에 paste한다.
pasted location , size , 그리고 rotation angle 은 모두 random하게 생성되어 실제 보안 검사 시나리오, 특히 overlapped and cluttered 시나리오를 모방한다
training minibatch 와 금지 물품 candidates 은 서로 다른 dataset에서 수집될 수 있다.
synthetic samples의 품질을 향상시키기 위해 boundary artifacts(경계 인공물)을 smooth하게 처리하는 Gaussian blurring도 적용된다.
실제 시나리오에서는 특정 category가 특정 context 속성(e.g. horse는 초원에 있고 airplane은 하늘에 있는 것)과 관련이 있는 반면, 금지 물품 탐지를 위한 X-Ray image는 제한된 category, 좁은 색상 분포, 단순한 배경 맥락 정보를 갖는다.
서로 다른 category의 금지 물품은 거의 동일한 일반적인 맥락 속성을 포함하고 있기 때문에, cut된 금지 물품과 paste된 backgroun image 간의 맥락 일관성과 합리성을 엄격히 보장할 필요가 있다.
이러한 이유ㄹ, 잘라낸 물품의 pasted parameters(i.e., locations, size, and rotation angle)을 random하게 생성할 수 있으며, 특히 overlapped and cluttered situation에 대한 training samples의 다양성을 더욱 증가시킬 수 있다.
마지막으로, 생성된 minibatch 은 detector를 훈련하는 데 사용된다.
ORCP의 detailed steps은 Algorithm 1에 요약되어 있다.
기존의 data augmentation 방법은 training iamge에 horizontal flipping, multiscale strategy, patch crop과 같은 geometrical transformations(기하학적 변환)을 수행하여 공간 구조를 다양화했다.
그러나 이러한 방법들은 imagee의 visual content를 거의 바꾸지 못해 training dataset의 다양성이 부족하다.
기존의 data augmentation 방법과 비교했을 때, ORCP는 다음과 같은 여러 이점을 제공한다.
Fig. 4에서 보여진 바와 같이, 우리는 네 가지 다른 방식으로 생성된 synthetic image를 설명한다.
여기에는 동일한 dataset에서 잘라낸 물품과 붙인 bg image(즉, (b) PID2PID 및 (e) PIX2PIX)뿐만 아니라, 서로 다른 dataset에서 가져온 경우(즉, (c) PIX2PID 및 (f) PID2PIX)가 포함된다.
앞서 언급한 바와 같이, X-Ray image는 좁은 색상 분포와 단순한 맥락 정보를 가지고 있어, 서로 다른 dataset에서 잘라낸 물품과 붙인 bg image라도 random하게 붙이는 방식이 synthetic image의 품질을 보장할 수 있다.
간단한 first-order representation에 비해,
high-order statistics는 더 많은 discriminative 정보를 포함하고 있어 detection task에서 classification and localization ability를 향상시킨다.
동시에, dilated convolution은 features의 ERFs(Effective Receptive Fields?)를 많이 개선할 수 있으며, 이는 겹치고 작은 item들을 localizing하는 데 유용하다.
우리는 이 두 가지 요소를 통합하여 prohibited item detection task에서 dense overlapped and cluttered issues를 해결하기 위해 HDC module을 제안한다.
MLKP[13], [14]의 polynomial(다항) kernel approximation 방법에서 영감을 받아, 차의 linear predictor 는 다음과 같이 수식화할 수 있다:
여기서 는 차수의 수이며, 는 output feature 의 번째 element를 나타낸다.
는 차 representation로, rank-1 tensor decomposition(e.g., )로 근사할 수 있으며, (1)은 다음과 같이 재정의할 수 있다:
여기서 는 the inner product of the elements를 나타내며,
with 로 정의된다.
지금까지, parameter and 를 기반으로 임의 참수의 representation을 계산할 수 있다.
[13]에 의해 동기부여되어, 우리는 를 로 정의하고,
는 channel을 갖는 차 1x1 conv layer를 수행하여 얻을 수 있다.
여기서 와 는 각각 차수와 tensor의 rank를 나타낸다.
우리는 여기서 다양한 dilated rates 을 사용하여 dilated convolution을 배치하고, dilated convolution은 다음과 같이 수행된다:
여기서 는 의 spatial location을 나타내며, 는 dilated convolutional kerel with size 이다.
여기서 이다.
이는 전통적인 conv kernel 의 convolutional kernel에서 인접 요소 사이에 0을 삽입하여 구현된다.
전통적인 convolution은 고정된 크기의 receptive field를 가지지만, dilated convolution은 추가적인 computation cost 없이 다른 dilated rates를 설정함으로써 다양한 receptive field를 가진 feature map을 얻을 수 있다.
또한, dilated convolution은 small size items에 대한 유용한 정보를 capture하는 능력을 촉진하여 multiscale and overlapped issue를 더욱 잘 완화한다.
끝으로, 제안된 HDC module은 다음 단계로 얻을 수 있다.
주어진 input feature map 에 대해, 우리는 먼저 차 dilated convolution operation을 channels과 dilated rate 로 수행하여 차 성분 를 계산한다.
(i.e., )
그런 다음, high-order output representations 는 모든 성분의 elementwise production으로 얻어진다.
마지막으로, 서로 다른 차수의 representations()을 연결하여 high-order output representation을 생성한다:
여기서 은 concatenation을 의미, 는 transpose 연산을 나타냄.
분명하게, 우리의 HDC는 high-order statistics과 dilated convolution의 최대 장점을 활용할 수 있고,
이는 feature discriminative ability와 receptive field을 향상시킬 수 있다.
마지막으로, 이 제가 생각한 이 논문의 단점입니다.
첫번째로는 FAR(Flase Alarm Rate) metric 말고 다른 metric을 사용했으면 더 좋았을 것 같습니다.
앞서 말씀드렸다시피, FAR metric은 실제로 금지 품목이 없는데 금지 품목이 있다고 잘못 탐지하는 비율을 나타냅니다.
그런데 금지 물품 탐지에서 금지 품목이 없는데 있다고 탐지하는 것보다, 금지 품목이 있는데 없다고 탐지하는 것이 더 위험한 상황이고 발생하면 안되는 상황이기 때문에
금지 품목이 있는데 없다고 탐지하는 비율을 측정할 수 있는 metric을 사용하여 비교하는 것이 더 적절하지 않은가 생각했습니다.
두 번째로는 이 실험에서 AP를 주요 metric으로 사용했지만, 탐지 속도, 메모리 사용량 등 다른 지표들도 함께 제시했으면 더 좋았을 것 같습니다.
정확한 탐지와 더불어 사람들이 계속해서 주입되고 빠른 처리가 필요한 보안 검색대의 특성상 탐지 속도도 중요할 것이라고 생각합니다.
