[๐Ÿค KT์—์ด๋ธ”์Šค์ฟจ 2๊ธฐ] ์‹œ๊ฐ์ง€๋Šฅ ๋”ฅ๋Ÿฌ๋‹

๊ฐ•ํƒœ๊ณตยท2023๋…„ 4์›” 2์ผ

์‹œ๊ฐ ๋””๋Šฅ ๋”ฅ๋Ÿฌ๋‹ ๋‚ด์šฉ ์ค‘ ๊ฐ€์žฅ ๊ธฐ์–ต์— ๋‚จ๋Š” ๋‚ด์šฉ์„ ๊ผฝ์œผ๋ผ๋ฉด ๋‹ค์Œ์˜ ๋ฌธ๊ตฌ์ด๋‹ค.

โœ… CNN

Convolutional neural network(CNN ๋˜๋Š” ConvNet)๋ž€ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ง์ ‘ ํ•™์Šตํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹์˜ ์‹ ๊ฒฝ๋ง ์•„ํ‚คํ…์ฒ˜์ด๋‹ค.

CNN์€ ์˜์ƒ์—์„œ ๊ฐ์ฒด, ํด๋ž˜์Šค, ๋ฒ”์ฃผ ์ธ์‹์„ ์œ„ํ•œ ํŒจํ„ด์„ ์ฐพ์„ ๋•Œ ํŠนํžˆ ์œ ์šฉํ•˜๋‹ค. ๋˜ํ•œ, ์˜ค๋””์˜ค, ์‹œ๊ณ„์—ด ๋ฐ ์‹ ํ˜ธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ฐ๋„ ๋งค์šฐ ํšจ๊ณผ์ ์ด๋‹ค.

์‚ฌ์‹ค ์ž‘๋…„์—๋„ CNN์„ ์•„์ฃผ์•„์ฃผ ์ •๋ง ์‚ด์ง ์ฐ๋จน์„ ํ•˜๋Š” ๋ฐ”๋žŒ์— ๋Œ€๋žต์ ์ธ ๊ฐœ๋…๋„ ํ—ท๊ฐˆ๋ฆฌ๊ณ  ์žˆ์—ˆ๋Š”๋ฐ ์ด๋ฒˆ ๊ธฐํšŒ์— ๊ธฐ์ดˆ ๊ฐœ๋…์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์–ด์„œ ๋„์›€์ด ๋งŽ์ด ๋˜์—ˆ๋‹ค.

๐Ÿคทโ€ CNN์ด ์ค‘์š”ํ•œ ์ด์œ 

CNN์€ ์˜์ƒ ๋ฐ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์—์„œ ์ฃผ์š” ํŠน์ง•์„ ์ฐพ์•„๋‚ด๊ณ  ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ์ตœ์ ์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ๊ณตํ•œ๋‹ค. CNN์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์‘์šฉ ๋ถ„์•ผ์—์„œ ํ•ต์‹ฌ ๊ธฐ์ˆ ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.

์˜๋ฃŒ ์˜์ƒ

  • ์˜๋ฃŒ ์˜์ƒ: CNN์€ ์ˆ˜์ฒœ ๊ฑด์˜ ๋ณ‘๋ฆฌํ•™ ๋ณด๊ณ ์„œ๋ฅผ ๊ฒ€ํ† ํ•˜์—ฌ ์˜์ƒ์—์„œ ์•” ์„ธํฌ์˜ ์œ ๋ฌด๋ฅผ ์‹œ๊ฐ์ ์œผ๋กœ ๊ฒ€์ถœํ•  ์ˆ˜ ์žˆ๋‹ค.

- ์‹ ํ˜ธ ์ฒ˜๋ฆฌ

์˜ค๋””์˜ค ์ฒ˜๋ฆฌ: ๋งˆ์ดํฌ๊ฐ€ ์žˆ๋Š” ๋ชจ๋“  ๊ธฐ๊ธฐ์—์„œ ํ‚ค์›Œ๋“œ ๊ฒ€์ถœ์„ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ • ๋‹จ์–ด๋‚˜ ๋ฌธ๊ตฌ("Hey Siri!")๊ฐ€ ๋ฐœํ™”๋˜์—ˆ์„ ๋•Œ ์ด๋ฅผ ๊ฒ€์ถœํ•  ์ˆ˜ ์žˆ๋‹ค. CNN์€ ํ‚ค์›Œ๋“œ๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ํ•™์Šตํ•˜์—ฌ ์–ด๋–ค ํ™˜๊ฒฝ์—์„œ๋„ ๋‹ค๋ฅธ ๋ชจ๋“  ๋ฌธ๊ตฌ๋Š” ๋ฌด์‹œํ•˜๊ณ  ํ‚ค์›Œ๋“œ๋ฅผ ๊ฒ€์ถœํ•  ์ˆ˜ ์žˆ๋‹ค.

- ๊ฐ์ฒด ๊ฒ€์ถœ

๊ฐ์ฒด ๊ฒ€์ถœ: ์ž์œจ์ฃผํ–‰์—์„œ๋Š” ํ‘œ์ง€ํŒ์ด๋‚˜ ๋‹ค๋ฅธ ๊ฐ์ฒด์˜ ์กด์žฌ ์—ฌ๋ถ€๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ๊ฒ€์ถœํ•˜๊ณ  ์ถœ๋ ฅ์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๋Š” ๋ฐ CNN์„ ์‚ฌ์šฉํ•œ๋‹ค.

- ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ: GAN(์ƒ์„ฑ์  ์ ๋Œ€ ์‹ ๊ฒฝ๋ง)์„ ์‚ฌ์šฉํ•˜์—ฌ ์–ผ๊ตด ์ธ์‹ ๋ฐ ์ž์œจ์ฃผํ–‰์„ ๋น„๋กฏํ•œ ๋”ฅ๋Ÿฌ๋‹ ์‘์šฉ ๋ถ„์•ผ์—์„œ ์‚ฌ์šฉํ•  ์ƒˆ๋กœ์šด ์˜์ƒ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

โœจ Yolo

You Only Look Once ์˜ ์•ฝ์ž๋กœ Object detection ๋ถ„์•ผ์—์„œ ๋งŽ์ด ์•Œ๋ ค์ง„ ๋ชจ๋ธ์ด๋‹ค. ์ฒ˜์Œ์œผ๋กœ one-stage-detection ๋ฐฉ๋ฒ•์„ ๊ณ ์•ˆํ•˜์—ฌ ์‹ค์‹œ๊ฐ„์œผ๋กœ Object Detection์ด ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค.

๐Ÿ”Ž Yolov5 ํŠน์ง•

  1. ์ด๋ฏธ์ง€ ์ „์ฒด๋ฅผ ํ•œ๋ฒˆ๋งŒ ๋ณด๋Š” ๊ฒƒ

R-CNN: ์ด๋ฏธ์ง€๋ฅผ ์—ฌ๋Ÿฌ์žฅ์œผ๋กœ ๋ถ„ํ• ํ•˜๊ณ  CNN ๋ชจ๋ธ์„ ์ด์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ ๋ถ„์„ํ–ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋ฏธ์ง€ ํ•œ์žฅ์„ ๋ณด๋”๋ผ๋„ ์—ฌ๋Ÿฌ์žฅ์˜ ์ด๋ฏธ์ง€๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์•˜๋‹ค. ํ•˜์ง€๋งŒ YOLO๋Š” ์ด๋Ÿฌํ•œ ๊ณผ์ •์—†์ด ์ด๋ฏธ์ง€๋ฅผ ํ•œ ๋ฒˆ๋งŒ ๋ณด๋Š” ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

  1. ํ†ตํ•ฉ๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ

๊ธฐ์กด Object Detectin ๋ชจ๋ธ์€ ์ „์ฒ˜๋ฆฌ๋ชจ๋ธ + ์ธ๊ณต์‹ ๊ฒฝ๋ง ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์‚ฌ์šฉํ–ˆ๋‹ค. ํ•˜์ง€๋งŒ YOLO์—์„œ๋Š” ์œ„๋ฅผ ํ†ตํ•ฉํ•œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ๋‹ค.

  1. ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ

๊ธฐ์กด์˜ R-CNN๋ณด๋‹ค 6๋ฐฐ ๋น ๋ฅธ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค.

๐Ÿ”Ž Object Detection์˜ ๊ตฌ์กฐ์™€ ์ข…๋ฅ˜

์ตœ์‹  detector ๋Š” ์ฃผ๋กœ ๋ฐฑ๋ณธ๊ณผ ํ—ค๋“œ๋ผ๋Š” ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

๋ฐฑ๋ณธ(Backbone)์€ ์ž…๋ ฅ์ด๋ฏธ์ง€๋ฅผ feature map์œผ๋กœ ๋ณ€ํ˜•์‹œ์ผœ์ฃผ๋Š” ๋ถ€๋ถ„์ด๋‹ค.

ํ—ค๋“œ(Head)๋Š” Backbone์—์„œ ์ถ”์ถœํ•œ feature map์˜ location ์ž‘์—…์„ ํ•ด์ฃผ๋Š” ๋ถ€๋ถ„์œผ๋กœ, predict classes ์™€ bounding boxes ์ž‘์—…์ด ์ˆ˜ํ–‰๋œ๋‹ค. ํ—ค๋“œ๋Š” ํฌ๊ฒŒ Dense Prediction๊ณผ Sparse Prediction์œผ๋กœ ๋‚˜๋ˆ„์–ด์ง„๋‹ค.

Sparse Prediction์„ ์‚ฌ์šฉํ•˜๋Š” Two-Stage Detector: Predict Classes ์™€ Bounding Box Regression ๋ถ„๋ฆฌ ex) R-CNN, R-FCN Dense Prediction์„ ์‚ฌ์šฉํ•˜๋Š” One-Stage Detector: Predict Classes ์™€ Bounding Box Regression ํ†ตํ•ฉ ex) YOLO, SSD

๋„ฅ(Neck) ์€ Backbone ๊ณผ Head๋ฅผ ์—ฐ๊ฒฐํ•˜๋Š” ๋ถ€๋ถ„์œผ๋กœ, feature map์„ ์ •์ œํ•˜๊ณ  ์žฌ๊ตฌ์„ฑํ•œ๋‹ค.

๐Ÿ”Ž ์ ˆ์ฐจ
input(์ด๋ฏธ์ง€) โ†’ CNN โ†’ FC(Fully Connected) โ†’ PT(Prediction Tensor) ๋ฅผ ๋ฐ˜๋ณต

0๊ฐœ์˜ ๋Œ“๊ธ€