CS231n study_lect1

nomis·2023년 3월 10일
0

computer vision

목록 보기
2/5
post-thumbnail

Introduction

컴퓨터 비전 분야에서 교수님, 선배님들, 동기들, 인터넷 모두가 추천하는 강의는 CS231n이다. CS231n 강의는 스탠포드 대학교에서 진행한 컴퓨터 비전 강의로 youtube에 올라와있으며 한국어 번역 자막 자료 또한 존재한다.
앞으로 강의를 수강하면서 내용을 정리하고 내 생각을 덛붙여 블로그에 포스팅하고자 한다.

Abstract

History

1959

컴퓨터 비전에 큰 영감을 준 실험이 있었는데 고양이에게 시각 정보가 들어왔을 때 뇌에서의 전기신호 반응을 관측하는 실험이었다. 뇌의 세포 중 하나인 뉴런의 동작과정을 관측한 결과, 입력 값이 있을 때 임계치를 넘지 못하면 0을 출력하고 임계치를 넘는다면 1을 출력하는 구조였다.
즉, 포유류의 시각적 처리 메커니즘이란 것이 복잡한 것이 아니라 정말 단순한 구조부터 시작한다는 점이 연구자들을 놀라게 했고 인간들이 공학적으로 "인간처럼 볼 수 있는 로봇"을 설계할 수 있을 거라는 희망을 갖게 했다.

1966

MIT에서 큰 야망을 가지고 THE SUMMER VISION PROJECT가 진행되었고 이후 컴퓨터 비전 분야에서 많은 발전이 있었다. 이 프로젝트를 컴퓨터 비전 분야의 시작이라고 보기도 한다.

1970's

VISION - Davis Marr
우리가 3D model을 인지할 때 edge image로 먼저 이해하고 depth가 포함된 2.5D를 인지한 후 최종적으로 3D model을 인지하게 된다.

인간의 행동을 기하학적 형태로 표현하기 위한 연구가 진행되었다.
"모든 객체는 단순한 기하학적 형태로 표현할 수 있다."

1980's

물체를 edge로 간단하게 표현하도록 하는 연구가 진행되었다.

1997

30년간 큰 발전이 없었던 컴퓨터 비전에서 기존과 다른 방식의 접근이 필요하다고 느꼈고 픽셀을 의미 있는 방향으로 군집화하는 image segmentation 방식이 새롭게 제시되었다.

1999

빛, 각도 등 다양한 변화에서 우리는 객체를 다르게 인지하게 되는데 객체의 특징 중 일부는 다양한 변화에 조금 더 강인하고 불변한다는 점에서 SIFT라는 기법이 소개되었다. 중요한 특징(features)을 찾아내고 다른 객체에 매칭하는 이 방식은 이후 컴퓨터 비전 분야에서 features의 중요성을 알게 해준 연구가 아닐까 싶다.

2001

컴퓨터 비전에서 이상하게 face detection은 발전이 빨랐다. 2001년에 발표된 논문 이후 2005년에 fuji film에서 face detection을 진행하는 카메라가 출시되었다.

2000's

2000년대 이후 카메라와 인터넷의 발전으로 컴퓨터 비전은 더 빠른 속도로 발전하게 된다. 컴퓨터 비전이 앞으로 해나갈 문제로 "object detection"을 정의했다.

컴퓨터 비전의 발전이 어느 정도가 되었는지 정량적으로 측정하기 위한 챌린지가 몇 가지가 있다. 그 중 PASCAL Visual Object Challenge는 이미지가 주어졌을 때 20개의 객체 카테고리를 알아맞추는 챌린지이다.

위의 그래프를 보면 2006년 이후로 꾸준히 정확도가 오르고 있음을 볼 수 있다. 하지만 이 챌린지는 데이터도 충분히 많지 않고 클래스(카테고리)도 20개밖에 되지않아 기존 챌린지 우승 알고리즘인 Graphic model, SVM 등이 학습에서 overfit하는 것 같다는 의구심이 제기되었다.

이에 IMAGENET은 22만개의 카테고리와 1400만개의 이미지를 제시하면서 세상 모든 물체를 감지할 수 있냐는 또 다른 챌린지를 제시했다.

2012

위의 표를 보면 IMAGENET challenge에서 2012년에 거의 10%의 오답률이 떨어졌는데 이 때가 CNN이 등장한 시기이다.
기존 머신 러닝의 성능을 한참 뛰어넘는 deep learning이라는 기법이 등장하자 사람들은 충격에 빠졌고 컴퓨터 비전 학계는 정말 빠르게 deep learning을 받아들이고 이를 계속 발전시켜 현재 IMAGENET 챌린지의 오답률은 사람의 수준을 뛰어넘게 된다.

갑자기 등장한 것처럼 보이는 CNN은 사실 2012년에 만들어진 모델은 아니다.

이전에도 neural network는 존재했는데 1998년 우표 분류를 위해 만들어진 모델을 보면 현재의 CNN 구조와 거의 동일하다.
또한 시대적인 배경도 한 몫 했는데 컴퓨터 연산량의 증가와 크고 다양해진 데이터셋이 존재해 모델 학습이 더 강력할 수 있었던 것이다.
결국 CNN은 기존 neural network를 발전시키고 시대적인 배경 또한 잘 맞아떨어져 큰 주목을 받게 된 것이다.

CS231n overview

이 수업에서 메인으로 다룰 문제는 image classification이다. 이에 발전해 object detection, image captioning, action classification 등 여러 task들과 최근 연구 동향까지 살펴볼 예정이다.

image classification에서는 이미 사람의 수준을 넘어섰지만 컴퓨터 비전은 아직 갈 길이 멀다. 컴퓨터 비전의 목적은 사람처럼 보는 기계를 만드는 것이다.

사람은 사진 한 장을 보고 위와 같이 긴 문장을 구사할 수 있다. 인간의 상상력은 무궁무진하고 단순히 객체의 클래스를 맞추는 것이 아닌 이미지에 대한 진정한 이해를 하기 위해선 아직 해결해야할 문제들이 많이 남아있다.

profile
computer vision & machine learning blog

0개의 댓글