강의 제목
Convolutional Neural Networks for Visual Recognition (Spring 2017)
강의 목차
- Introduction to Convolutional Neural Networks for Visual Recognition: 컴퓨터 비전의 개요와 합성곱 신경망(CNN)의 기본 개념을 소개합니다.
- Image Classification: 이미지 분류 문제를 다루며, K-최근접 이웃(K-NN)과 같은 기본적인 분류 기법을 설명합니다.
- Loss Functions and Optimization: 손실 함수의 개념과 최적화 기법, 특히 경사 하강법에 대해 논의합니다.
- Backpropagation and Neural Networks: 역전파 알고리즘과 다층 퍼셉트론(MLP)의 구조를 상세히 다룹니다.
- Convolutional Neural Networks: CNN의 구조와 작동 원리를 심층적으로 탐구합니다.
- Training Neural Networks, Part 1: 신경망 훈련의 첫 번째 부분으로, 활성화 함수와 데이터 전처리 방법을 다룹니다.
- Training Neural Networks, Part 2: 신경망 훈련의 두 번째 부분으로, 최적화 기법과 정규화 방법을 설명합니다.
- Deep Learning Software: 딥러닝 소프트웨어와 프레임워크에 대해 소개합니다.
- CNN Architectures: 다양한 CNN 아키텍처, 예를 들어 AlexNet, VGGNet, GoogLeNet, ResNet 등을 분석합니다.
- Recurrent Neural Networks: 순환 신경망(RNN)과 그 변형인 LSTM, GRU 등을 다룹니다.
- Detection and Segmentation: 객체 탐지와 이미지 분할 기법을 설명합니다.
- Visualizing and Understanding: 신경망의 내부를 시각화하고 이해하는 방법을 논의합니다.
- Generative Models: 생성 모델, 특히 GAN(Generative Adversarial Networks)에 대해 다룹니다.
- Deep Reinforcement Learning: 심층 강화 학습의 개념과 적용 사례를 소개합니다.
- Efficient Methods and Hardware for Deep Learning: 딥러닝을 위한 효율적인 방법과 하드웨어 최적화에 대해 논의합니다.
1강 요약
1. Computer Vision의 중요성
- 시각 데이터 폭발: 인터넷 트래픽의 80%가 비디오 데이터이고, 매초 유튜브에 5시간 분량의 영상이 업로드됨.
- 인간과 유사한 자동 해석 필요: 방대한 영상·이미지에서 의미를 추출하고 조직하기 위해 자동화된 비전 알고리즘 필수.
2. Vision Technology의 역사
- 생물학적 Vision의 기원
- 5억 4천만 년 전 ‘진화의 빅뱅’과 함께 최초의 눈 등장 → 시각을 통한 포식·회피 경쟁
- Hubel & Wiesel(1950~60년대): 고양이 뇌 전기생리학 실험으로 시각 피질의 엣지·기본 구조 처리 메커니즘 규명
- 초기 Computer Vision 연구(1960~80년대)
- Larry Roberts “Block World” (1963): 단순 기하학 형태로 장면 재구성
- MIT Summer Vistion 프로젝트(1966): 여름 한 철에 전체 비전 시스템 구현 시도
- David Marr(1970s): “Primal Sketch → 2.5D Sketch → 3D Representation” 계층 모델 제안
- 형태 기반 모델 (generalized cylinders, pictorial structures), Lowe의 선·엣지 모델 등
- Machine Learning 도입과 특징 기반 접근(1990s~2000s 초)
- SIFT, HOG, DPM 등 특징(feature) 추출·매칭 기법 발전
- Viola–Jones 얼굴 인식(2001): AdaBoost 기반 실시간 얼굴 검출
- PASCAL VOC 및 벤치마크 데이터셋 등장 → 알고리즘 성능 비교 가능
- ImageNet & 딥러닝 혁명(2010년대)
- ImageNet 구축(약 1천만 장 이상, 수천 개 클래스) 및 ILSVRC 대회(2010~)
- 2012년 AlexNet: CNN 기반 모델이 16% 오류율로 인간 수준 도달, 딥러닝 주류화
- 이후 GoogleNet, VGG, ResNet(152층) 등 초고층 신경망 등장
3. 핵심 개념 & 최신 동향
- Convolutional Neural Networks (CNN)
- 이미지 분류, Object Recognition, Image Segmentation, 캡셔닝 등 다양한 응용의 근간
- 2012년 이후 더 깊고 복잡한 네트워크 구조·최적화 기법 활발
- 응용 분야
- 자율주행, 의료 진단, 로보틱스, 증강/가상현실, 시맨틱 세그멘테이션, 3D 재구성, 행동 인식 등
- 미래 과제
- 픽셀 단위 이해(semantic segmentation), 고차원 3D 모델링, 장면 내 의미 관계 그래프, 깊은 맥락 이해
4. 수업 개요 및 운영
- 강의진: Fei-Fei Li 교수(총괄), Justin Johnson·Serena Yeung(PhD 조교), 18명의 TA
- 플랫폼: 강의자료·Q&A는 Piazza 활용, 이메일은 개인적·비공개 문의에 한정
- 교재: Goodfellow et al. “Deep Learning” (선택 도서)
- 과제 & 평가
- 프로그래밍 과제(Python 기반, CNN 직접 구현)
- 중간고사
- 최종 프로젝트(3인 1조)
- Late days 총 7일 유연 활용 가능
- Honour Code 엄격 준수
- 선수 지식: Python, 선형대수, 미적분(도함수), CS131/CS231a(컴퓨터 비전 기초), CS229(기계학습) 수준