오늘은 드디어 드디어 컴퓨터 비전 수업을 시작했다. 솔직히 많은 사람들이 컴퓨터 비전이나 생성 모델, nlp를 듣고 싶어서 지금까지 버틴게 아닐ㄲ....지금 11시 20분... 막차를 타기까지 시간이 얼마 안남아 뼈대만 잡고 집으로 가야할 것 같지만...!
문제점: 이미지의 Bbox가 정확히 Image feature map 상의 grid와 align 되지 않아 위치를 그대로 가져와서 처리 할 수 없다.
Proposal을 Feature 위로 투영해서 가장 가까운 격자로 이동시킴
여기서 Bilinear interpolation 개념이 나왔는데 이 부분은 더 공부해야 할 듯...
--> Two-stage object detection
여기서 average precision 이런거 나왔는데 개념은 알겠는데 확실히 어떻게 계산되는지 이해 못함 ㅠ...
--> 둘이 합치면 안되나?
(you only live once..)가 아니고 you only look once
Input image를 Conv를 여러번 거치고 마지막 output feature를 일렬로 펼치게 된다. 그리고 reshape 한다.
1 x 1 x c -> 얘네를 feature pipe라고 하며 여기 안에는
보정값 4(x, y, h, w)개와 confidence 값 하나, 총 5개의 숫자 (하나의 앵커)로 시작해,
앵커 안에 있는 Bbox 수
Class 개수로 이루어져 있다.
과정이 그래서..
인풋 받음 -> anchor 겁나 만듦 -> anchor 안 bbox에서 후보군 만들고 이 물체가 강아지여 고양이여 판단 -> 많이 만든 bbox 후보군들을 non-maximum suprression 활용해서 중복 제거 해줌
대충 이론은 이렇게 배웠고 오늘은 파이토치 실습을 다 끝냈다!
기본 문법이랑, 신경망한번 만들어보고 fashion MNIST로 실습했다.... 솔직히 아무것도 안주고 처음부터 해보세요 이러면 아직 할 수는 없지만 그래도 init에는 뭐가 들어가야 하고, 어떻게 레이어를 구성해야 하는지 대충 이제야 머리속에 들어오는 같은 느낌... 어제 fashion mnist한게 정확도가 80%였는데 오늘은 레이어 조금 바꿔보면서 성능을 높여 봐야겠다. 9월 안으로 숫자분류하는 mnist 혼자 해보고싶당...
요즘따라 운동을 안해서 그런지 너무너무 피곤하다.
막 나도 모르는 사이에 잔다~ 이런건 아닌데 고개만 숙이면 조는...(?) 단계에 온 것 같다. 요즘 집에서 다 씻고 잘 준비하면 한시 반쯤 되니까 내일은 6시에 일어나서 조금이라도 운동을... 아니면 스플에서 집으로 돌아갈 때 걸어가야 되낭.. 증명사진 찍기 전까지 살빼야 하는데.. 하는 생각이랑 후딱 맛있는거 먹고 힘내서 공부하자 이런 생각을 많이 든다. 그리고 남아서 요즘 3시간정도 하는데 시간이 너무 부족한 것 같다 ㅠㅠ... 그래서 이론 들을 때 후딱 집중하고 실습은 남아서 따라가는 걸로...!! 화이팅 화이팅