Deep Learning for Computer Vision
-
Computer Vision : 시각적인 데이터를 처리,인지 및 추론하는 인공 시스템을 구축하는 것
우리 생활 곳곳 어디에서든 사용되기 때문에 중요.
-
Learning : 데이터나 경험을 통해 학습하여 인공 시스템을 구축하는 것
-
Deep Learning : 뇌에서 영감을 받은 많은 "계층"이 있는 계층적 학습 알고리즘
Computer Vision과 Deep Learning은 다음과 같은 관계를 갖고 있으며 여러 분야에 걸쳐있고 서로 상호작용.
이번 강의 핵심
1. Computer Vision의 역사
1959, Hubel and Wiesel
- 고양이에게 시각적인 영상을 주고 뇌에서 어떠한 반응을 일으키는지 알아본 실험.
- 다른 시각적 영상을 인지하였을때 뇌에서는 다르게 반응.
- simple cell은 간단한 자극에 반응을 하였고, 이들이 모여서 complex cell이 되고 더 복잡한 자극에 반응.
1963, Larry Roberts
- Feature 정보들을 통해서 사진에 대한 raw data 정보를 컴퓨터로 가져옴.
1970s, Stages of Visual Representation, David Marr
- input 이미지에서 외곽선 정보를 얻고, 외곽선 정보를 통해서 depth 정보를 추출해 내어 3D model로 표현.
사람과 같은 복잡한 물체도 표현을 하기 위해서 노력
- Generalized Cylinder (Brooks and Binford, 1979)
- Pictorial Structures (Fischler and Elshlager, 1973)
1980s, Recognition via Edge Detection
- 디지털 카메라의 보급과 컴퓨터 처리 속도 향상으로 인해서 edge detection을 통해 물체를 인식.
1990s, Recognition via Grouping
- 사람들은 더욱 복잡한 이미지를 인식하고 싶어했고, grouping 기법으로 labeling하여 물체를 인식.
2000s, Recognition via Matching
- 다른 사진에서 feature vector를 추출하여 회전시키고 이동시켜도 매칭하여 물체를 인식.(SIFT,David Lowe, 1999)
2001, Face Detection
- boosted decision tree를 이용하여 물체를 인식하기 위한 feature의 조합을 인식하고, 얼굴을 인식.
이는 디지털 카메라에 auto focus기술이 탑재됨.
Image Challenge
- PASCAL Visual Object Challenge와 ImageNet Challenge를 통해서 object classification의 성능이 점점 향상.
- 2012년도에 딥러닝이 사용되면서 성능이 급격하게 향상
- Neural Network은 아주 새로운 것처럼 보였으나 원래 존재하며 발전해오던 기술이었고, 주류 기술이 아니었으나 2012년 주류 기술이 됨.
2. Deep Learning의 역사
1958, Perceptron
- 당시 SOTA 기술로 하드웨어로 구현이 되었고, 알파벳 인식까지 가능했음.
1980, Neocognitron : Fukushima
Hubel과 Wiesel의 계층적 처리에 영감을 받아서 Computational model을 만들었고, 2012년 AlexNet과 매우 유사함.
1986, Backprop
- backprop은 처음으로 사람들이 더 deep한 Multi-layer를 성공적으로 학습시킬 수 있는 알고리즘.
1998, Convolutional Networks : LeCun et al
- Fukushima의 convolution과 pooling 그리고 multi-layer를 Rumelhar의 Backprop과 결합하여 Convolutional Networks를 제안했고, 이를 통해서 이미지에서 different types of things를 학습할 수 있게 됨.
- 이는 실제로 상업적으로 대단한 성공을 거두었고, 학문적으로도 영향을 끼침.
2000s, Deep Learning
-
2000년대에 들어서 Deep Learning은 많은 발전을 이루었고, 2012년을 기점으로 관심과 수요가 급증.
-
Image Classification
-
Object Detection (segmentation, labgeling)
-
Video classification
-
Pose Recognition
-
image Captioning
-
의료, 환경, 항공 다양한 분야에서 ConvNet은 사용.
Deep Learning의 발전
- Algorithms ( 알고리즘의 발전)
- Data (crowd sourcing을 통한 big data 수집)
- Computation ( GPU의 발전)
- 이 세가지가 함께 결합되어 Deep Learning이 발전.