사람은 5개의 감각을 활용해 세상과 상호작용을 하며 학습을 한다. 또한, 5개의 오감 말고도 교차값과 다중값을 통해 더 유용한 정보를 취득할 수 있다. (eg. 얼굴과 눈을 인식하는 것 뿐만 아니라 표정을 파악)
사실 사람도 이러한 감각들의 사용법을 명확하게 알지 못하므로 이를 컴퓨터로 구현하는 문제는 단순한 문제가 아니기 때문에 활발히 연구되고 있다.
따라서, 인공지능을 구현하기 위해서는 도입부인 퍼셉트론이 불완전하면 사고 능력도 불완전하기에 지각 능력의 구현이 가장 중요하다.
우리는 ’뇌에서 처리하는 가장 많은 정보는 시각 정보이다’ 라는 말이 있을 정도로 다른 오감에 비해 압도적으로 시각에 의존하며 살아가고 있다.
사람이 장면을 이해하는 과정
일상의 장면 관찰 → 수정체 뒤쪽에 상이 맺힘 (센싱) → 뇌에 이 자극을 전달 → 이 자극을 이해하고 해석
컴퓨터가 장면을 이해하는 과정
카메라를 통해 영상 혹은 이미지 생성 → 이 것을 GPU상에 올려서 연산 진행 → 장면에 대한 분석을 진행하여 인사이트 추출
What is computer vision?
Classifier란?
K-NN(K nearest Neighbors)
하지만, 모든 데이터를 컴퓨터에 담기에는 용량도 부족하고 검색하는데 시간이 오래 걸리는 한계가 있다.
single Fully connectied layer
모든 픽셀들을 서로 다른 가중치로 내적하여 nonlinear activation function을 통해 분류 스코어로 출력하는 간단한 모델
이는 평균적인 이미지에 대해서만 학습을 하여 표현하였는데, 조금이라도 영상의 위치나 스케일이 달라지게 된다면 다른 결과와 해석을 나타내는 문제가 있다.
Locally connected neural network
CNN의 발전 흐름
AlexNet
https://velog.io/@ysw2946/AlexNet
VggNet