๐ ๋ณธ ๋ฆฌ๋ทฐ๋ YOLO v1 ๋ ผ๋ฌธ ๋ฐ ๋ฆฌ๋ทฐ ๋ฑ์ ์ฐธ๊ณ ํด ์์ฑํ์ต๋๋ค.
๐ Extremely Fast
๐ one-stage model
๐ Grid cell
๐ DarkNet
๐ Responsible
โ ๊ธฐ์กด์ Object Detection ๋ชจ๋ธ๋ค์ธ R-CNN & DPM์ two-stage detector์ด๋ผ๋ ์ , ๊ทธ ๊ฒฐ๊ณผ stage๊ฐ์ ๋ณ๋ชฉ ํ์์ผ๋ก ์๋๊ฐ ๋๋ฆฝ๋๋ค. ํ์ง๋ง ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ YOLO๋ one-stage detector๋ก์จ, localization๊ณผ classification์ ํ๋์ ๋คํธ์ํฌ๋ก ์ํํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ extremely Fast ์๋๋ฅผ ๋ณด์์ต๋๋ค. Base YOLO network์ ๊ฒฝ์ฐ 45 FPS, Fast YOLO network์ ๊ฒฝ์ฐ 150 FPS์ ์๋๋ฅผ ๋ณด์์ต๋๋ค.
โ YOLO๋ sliding window์ regions proposal์ ๋ฌ๋ฆฌ image๋ฅผ ์ ์ฒด์ ์์ค ์ถ๋ก ํฉ๋๋ค. ๋ํ YOLO๋ ์๋ก์ด ๋๋ฉ์ธ ๋ฐ ์๋ก์ด ์ด๋ฏธ์ง์ ์ ์ฉ์ ๋ํด์๋ ์ ํฉํฉ๋๋ค.
โ YOLO๋ ์ ์ฒด ์ด๋ฏธ์ง์ ๋ํ feature์ ์ฌ์ฉํด bound-box + confidence์ Class probability์ ๋ํ ์์ธก์ ๋์์ ์งํํ๋ค.
โ Input image๋ฅผ S x S grid๋ก ๋๋๋๋ค. grid๋ก ๋๋๋ค๋ ๊ฑด ์ฒด์คํ๊ณผ ๊ฐ์ด S๋งํผ ์ผ์ ํ๊ฒ ์นธ์ ๋๋๋ค๊ณ ์๊ฐํ์๋ฉด ๋ฉ๋๋ค. Grid๊ฐ YOLO์ ๊ฐ์ฅ ์ค์ํ ํฌ์ธํธ ์ค ํ๋๋ผ๊ณ ์๊ฐํฉ๋๋ค. ๋ง์ฝ grid cell์ด ๋ฌผ์ฒด์ ์ค์ฌ์ ์์นํ๋ค๋ฉด, ๊ทธ grid cell์๊ฒ ๋ฌผ์ฒด๋ฅผ detectingํ responsible์ ์ค๋๋ค.
โ ๊ฐ grid cell์ B bounding boxes์ confidence score์ ์์ธกํฉ๋๋ค. confidence score์ box์์ ๋ฌผ์ฒด๊ฐ ์๋์ง, ์์ธกํ box๊ฐ ์ผ๋ง๋ ์ ํํ์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๊ทธ๋ฆฌ๊ณ confidence = * ๋ก ์ ์ํฉ๋๋ค. ์ฌ๊ธฐ์ ์ ๋ฌผ์ฒด๊ฐ grid cell์์ ์์ง ์์ผ๋ฉด 0์ ์์ธกํฉ๋๋ค.
โ ๊ฐ bounding box๋ 5๊ฐ์ ๊ตฌ์ฑ ์์(x,y,w,h + confidence)๋ฅผ ์์ธกํฉ๋๋ค. (x,y)๋ grid cell์์ ์ค์ฌ ์ขํ๋ฅผ ์๋ฏธํฉ๋๋ค. (w,h)m width, height์ ์ ์ฒด ์ด๋ฏธ์ง์ ๋น๋กํ ๊ฐ์ ๋๋ค.
โ ๊ฐ grid cell์ ๊ฐ์ conditional class probabilities, ๋ฅผ ์์ธกํฉ๋๋ค. ์ด๋ ๋ฌผ์ฒด๊ฐ ์กด์ฌํ๋ค๊ณ ํ์ ๋, ํน์ Class i์ผ ์กฐ๊ฑด๋ถ ํ๋ฅ ๊ฐ์ ๋๋ค. ํ ๊ฐ์ง ์ง๊ณ ๋์ด๊ฐ์ผํ ๊ฒ์ YOLO๋ box B์ ๊ฐ์์๋ ๊ด๋ จ์์ด, grid cell์ ํ๋ฅ ๊ฐ์ ์์ธกํฉ๋๋ค.
โ YOLO๋ PASCAL VOC๋ก ํ๊ฐํ๊ณ , S=7, B=2. PASCAL VOC๋ 20๊ฐ์ Class๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ์, 7x7x(2*5+20)์ feature output์ด ๋์ถ๋ฉ๋๋ค.
โ ์์ ๋ง๊ณผ ๋์ผํ๊ฒ PASCAL VOC dataset์ผ๋ก detection ํ๊ฐ๋ฅผ ์งํํฉ๋๋ค.
โ ์์ DarkNet์ 24๊ฐ์ Conv layer ์ 2๊ฐ์ FC layer๋ก ์ด๋ฃจ์ด์ ธ์์ต๋๋ค. GooLeNet์ inception ๋ชจ๋๊ณผ ๋ค๋ฅด๊ฒ, ๋จ์ํ 3x3 conv layer ์ด์ ์ 1x1 reduction layer ์ฌ์ฉํ์ต๋๋ค.
โ ImageNet์ 1000-class dataset์ผ๋ก pretrain์ ์งํํฉ๋๋ค. first 20 Conv layer์ ์ฌ์ฉํด pretrain์ ์งํํฉ๋๋ค.
โ Pretrain ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก detection์ 4๊ฐ์ Conv layer์ 2๊ฐ์ Fc layer๋ฅผ ์ถ๊ฐํฉ๋๋ค. ์์ ์ด๋ฏธ์ง์ ์ถ๊ฐ๋ ๋ ์ด์ด๋ค์ ํ์ธ ํ ์ ์์ต๋๋ค.
โ Detection์ ํ ๋ ์ข ์ข ๋ฏธ์ธํ ์๊ฐ ์ ๋ณด(?)๊ฐ ํ์ํ๊ธฐ์ image์ ์ฌ์ด์ฆ๋ฅผ 224x224 -> 448x448๋ก ๋ณ๊ฒฝํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ง์ง๋ง ๋ ์ด์ด๋ class prob.์ bbox ์ขํ ๋ ๋ค ์์ธกํฉ๋๋ค.์ฆ, output ์ฌ์ด์ฆ๊ฐ 7x7x30(2*5+20) ์ธ๊ฒ์ ์ ์ ์์ต๋๋ค.
โ ๋ง์ง๋ง ๋ ์ด์ด์์๋ linear activation์ ์ฌ์ฉํ์ผ๋ฉฐ, ๋๋จธ์ง ๋ ์ด์ด์์๋ leaky rectified linear activation์ ์ฌ์ฉํ์ต๋๋ค.
โ YOLO๋ regression์์ ์์ฃผ ์ฌ์ฉ๋๋ SSE๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์์ Loss Fuction์ ํฌ๊ฒ 3๊ฐ์ง๋ก ๋๋ ์ ์์ต๋๋ค.
โ ์์ ๋ ์ค์ Localization loss ์ ๋๋ค.
โ 3 ~ 4์ค์ Confidence loss ์ ๋๋ค.
โ ๋ง์ง๋ง ์ค์ Classification loss ์ ๋๋ค.
โ Predicting detection ์ฌ์ฉํด test image ํ ๋ ์ค์ง ํ๋์ ๋คํธ์ํฌ ํ๊ฐ๊ฐ ํ์ํฉ๋๋ค.
โ ๋ณธ ๋ ผ๋ฌธ์ PASCAL VOC๋ก test๋ฅผ ์งํํ์ผ๋ฉฐ, ์ด๋ฏธ์ง๋น 98๊ฐ์ bonuding box์ class prob.๋ฅผ ์์ธกํฉ๋๋ค.
โ ์์ธก๋ 98๊ฐ์ ์ ๋ณด๋ค์ ์ฌ์ฉํด NMS(Non-maximal suppression)์ ์ฌ์ฉํด ์ค๋ณต๋๋ ๋ฌผ์ฒด๋ฅผ ์ ๊ฑฐํ๊ณ , ํ๋์ ๊ฒฐ๊ณผ๋ง์ ์ป์ต๋๋ค. NMS์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํด 2-3% mAP๊ฐ ์ฆ๊ฐํ๋ค๊ณ ํฉ๋๋ค.
โ YOLO๋ ๊ฐ grid cell์ ์ค์ง 2๊ฐ์ box๋ง์ ์์ธกํ๊ณ , ๊ทธ ์ค ํ๋์ class๋ฅผ ์์ธกํฉ๋๋ค. ์ด๋ฌํ ๊ณต๊ฐ์ ์ ์ฝ์ ์ธ ๋๋ ๊ทธ๋ฃน์ผ๋ก ๋ ๋ฌผ์ฒด๋ฅผ ์์ธกํ์ง ๋ชปํฉ๋๋ค.
โ ๋ํ small bounding box์ large bounding box์์ ๋์ผํ๊ฒ ์๋ฌ๋ฅผ ์ทจ๊ธํฉ๋๋ค. small bounding box์ ๊ฒฝ์ฐ ์ฝ๊ฐ์ ์์ง์์ด IoU์ ๋ง์ ์ํฅ์ ์ค ์ ์์ต๋๋ค. ์์ ์ด์ ๊ฐ localiztions์ ๋ถ์ ํํจ์ ์์ด ๊ฐ์ฅ ์ํฅ์ ๋ง์ด ์ฃผ๋ ์ด์ ์ ๋๋ค.