데이터셋은 객체와 배경을 포함한 학습 데이터를 구성해야 합니다.
데이터셋은 bbox(region propsals)와 ground truth box의 IoU값을 구합니다. IoU값은 교집합을 합집합으로 나눈 값입니다. IoU값이 0.5 이상인 경우에는 positive sample(=객체)로 판단하고, 0.5 미만인 경우에는 negative sample(=배경)으로 판단합니다.
negative sample을 통해서 AlexNet을 Fine tune합니다.
AlexNet의 마지막 layer를 구하려는 객체의 개수 N개와 배경을 포함한 (N+1)로 맞춰줍니다.
그 후, Fine tune된 AlexNet에 warp된 region prosals를 넣어 2000x4096의 feature vector를 얻습니다.