ㅁ

TaeEon Kim·2022년 10월 5일

yolo를 써야하는 상황이다.

실행보다 앞서 이론을 보기로 하였다.

yolo 논문 링크 : YOLOv3: An Incremental Improvement

논문 목차대로 리뷰를 하는 것이 이해에 더 도움 될것이라 생각하기에 목차따라 리뷰 진행하였다.

Abstract
욜로v3 은 빨라진 대신 살짝 무거워 졌고, RetinaNet, Titan X과 성능지표(AP)는 유사하지만 속도는 3.8배 빨랐다. 코드는 항상 온라인에 있다.

Introduction
가끔은 1년 내내 폰볼 때가 있다는 걸 아냐?, 올해 연구 안하고 트위터만 했는데 가끔씩 GAN을 해보며 놀았다. 작년 동안 약간의 추진력으로 욜로 개선해 봤다. 근데 솔직히 꽤 흥미로울 만한 건 없고 단지 더 잘 작동하게 된거 뿐이다. 난 그리고 다른 사람 연구도 도왔다.
아무튼 내가 논문 쓴 것도 욜로를 조금 업데이트 했는데 소스가 없어서 기술 보고서를 준비 한다. 기술보고서의 좋은 점은 인트로가 필요가 없다. 아무튼 욜로 v3와 어떤 거래가 있었는 지 알려줄게
The Deal
yolo v3 처리한 방법 : 우린 다른 사람으로부터 아이디어를 가져왔고 다른 분류기보다 좋은 새로운 분류기 네트워크를 훈련했어. 우린 전체 시스템을 통해 너가 이해할수 있도록 처음부터 다시 살펴 볼거야.

(그림 1. 우리는 Focal Loss 논문에 이 그림을 적용 시켰어. YOLOv3 는 비교할만한 성능지표로 볼 때 다른 감자기보다 굉장히 빨리 돌아갔어. M40 이나 Titan X 보다 몇배나, 그들은 기본적으로 GPU가 동일해.)

2.1 Bounding Box Prediction
YOLO9000 시스템은 엥커 박스로 차원 군집을 이용해 바운딩 박스를 예측한다. 네트워크는 각 바운딩 박스의 4개의 좌표를 예측한다. 만약 셀이 $c_{x}, c_{y}$ 에 따른 c이미지의 좌측 상단 코너의 오프셋이고 이전 바운딩 박스가 폭과 높이에서 $p_{w}, p_{h}$ 를 가진다면 예측은 다음 수식에 따른다.

그림 2. 치수 사전 및 위치예측이 있는 바운딩 박스입니다. 우린 클러스터 중심으로 부터의 오프셋으로 박스의 폭과 높이를 예측한다. 우리는 시그모이드 함수를 이용해서 필터 적용 위치와 관련된 박스의 중심 좌표를 예측한다. 이 수치는
트레이닝 중 우리는 sum of squared error loss를 사용한다. 만약 몇몇 좌표 예측의 실측값이 t라면 우리 기울기는 실측값 마이너스 예측값이다. 이 실측값은 inverting 되어 쉽게 계산가능 하다. yolo v3 는 각 바운딩 박스에 로지스틱 회귀를 사용하여 객체성 점수를 예측한다. 이 값은 만약 이 전 바운딩 박스가 어떠한 다른 이전 바운딩 박스보다 더 실측값과 겹친다면 1이 되어야한다. 만약 이전 바운딩 박스가 최고는 아니고 그렇지만 실측값 객체 겹친다. 이전 바운딩 박스가 최고는 아니지만 그러나 몇개의 임계값이상으로 실측값과 겹친다면 우리는 그 예측을 무시한다. 우리는 .5 임계값을 사용하고. 우리 시스템과 달리 각 실측 객체 에 대해 하나의 바운딩 박스를 할당한다. 만약 이전 바운딩 박스가 실측객체에 등록되지 아니하였다면 그것은 좌표 나 분류예측에 대해 전혀 손실이 없거나, 단지 객체성만 발생한다.

2.2 분류 예측

TaeEon Kim

I think

이전 포스트

ㅁ

첫 글

0개의 댓글