영상 인식보다 어려움. 물체가 몇개인지 어디에 있는지 classification 도 해야함.
무인차 운영에 단골로 등장하는 기술임. OCR 기술도 마찬가지.
딥러닝 전에 어떤 기술로 object detection을 했는지 살펴보자
영상의 경계선을 특징으로 잘 모델링하면 사람을 찾는데 도움이 되겠다. 사람의 직관을 통해서 알고리즘을 설계했음.
그래서 그렇게 설계된 알고리즘으로 특징을 뽑고, SVM
이라는 선형 classifier를 통해서 관심 물체인지 아닌지 판별기를 학습시켰음. 각 위치마다 어떤 경계선들의 분포로 결정 지었음. 다리 부분은 세로줄이 많고 그런 느낌. W를 잘 학습하면 이걸 reshape
잘해서 사람의 실루엣이 나오도록 할 수 있음.
feature를 굉장히 정교하게 사람이 엔지니어링해서 디자인하고 학습가능한 부분은 심플한 linear model을 사용한 그런 방법이었다.
영상의 gradient 를 기반으로 한 detector를 많이 사용했음.
바운딩 박스를 제안해줌. box proposal alrgorithm으로 부르기도 함. 가장 먼저 잘게 분할함. (over-segmentation)
그리고 색깔이 비슷하거나 gradient가 비슷하면 비슷한 영역으로 보고 합침.
그렇게 하고 보면 큰 segmentation이 되고 이걸 포함하는 큰 바운딩 박스를 찾는 것이 이 알고리즘의 특징임.
AlexNet 과 마찬가지로 압도적인 성능을 나타내면서 데뷔
프로세스는 기존의 이미지 classification을 최대한 활용하기 위해서 다음과 같이 간단하게 설계가 되어있음.