[Stanford CS231N] Lecture 1 | Introduction to Convolutional Neural Networks for Visual Recognition

seon·2025년 6월 24일

ML & AI

목록 보기
20/21
post-thumbnail

강의 제목

Convolutional Neural Networks for Visual Recognition (Spring 2017)

강의 목차

  1. Introduction to Convolutional Neural Networks for Visual Recognition: 컴퓨터 비전의 개요와 합성곱 신경망(CNN)의 기본 개념을 소개합니다.
  2. Image Classification: 이미지 분류 문제를 다루며, K-최근접 이웃(K-NN)과 같은 기본적인 분류 기법을 설명합니다.
  3. Loss Functions and Optimization: 손실 함수의 개념과 최적화 기법, 특히 경사 하강법에 대해 논의합니다.
  4. Backpropagation and Neural Networks: 역전파 알고리즘과 다층 퍼셉트론(MLP)의 구조를 상세히 다룹니다.
  5. Convolutional Neural Networks: CNN의 구조와 작동 원리를 심층적으로 탐구합니다.
  6. Training Neural Networks, Part 1: 신경망 훈련의 첫 번째 부분으로, 활성화 함수와 데이터 전처리 방법을 다룹니다.
  7. Training Neural Networks, Part 2: 신경망 훈련의 두 번째 부분으로, 최적화 기법과 정규화 방법을 설명합니다.
  8. Deep Learning Software: 딥러닝 소프트웨어와 프레임워크에 대해 소개합니다.
  9. CNN Architectures: 다양한 CNN 아키텍처, 예를 들어 AlexNet, VGGNet, GoogLeNet, ResNet 등을 분석합니다.
  10. Recurrent Neural Networks: 순환 신경망(RNN)과 그 변형인 LSTM, GRU 등을 다룹니다.
  11. Detection and Segmentation: 객체 탐지와 이미지 분할 기법을 설명합니다.
  12. Visualizing and Understanding: 신경망의 내부를 시각화하고 이해하는 방법을 논의합니다.
  13. Generative Models: 생성 모델, 특히 GAN(Generative Adversarial Networks)에 대해 다룹니다.
  14. Deep Reinforcement Learning: 심층 강화 학습의 개념과 적용 사례를 소개합니다.
  15. Efficient Methods and Hardware for Deep Learning: 딥러닝을 위한 효율적인 방법과 하드웨어 최적화에 대해 논의합니다.

1강 요약

1. Computer Vision의 중요성

  • 시각 데이터 폭발: 인터넷 트래픽의 80%가 비디오 데이터이고, 매초 유튜브에 5시간 분량의 영상이 업로드됨.
  • 인간과 유사한 자동 해석 필요: 방대한 영상·이미지에서 의미를 추출하고 조직하기 위해 자동화된 비전 알고리즘 필수.

2. Vision Technology의 역사

  1. 생물학적 Vision의 기원
    • 5억 4천만 년 전 ‘진화의 빅뱅’과 함께 최초의 눈 등장 → 시각을 통한 포식·회피 경쟁
    • Hubel & Wiesel(1950~60년대): 고양이 뇌 전기생리학 실험으로 시각 피질의 엣지·기본 구조 처리 메커니즘 규명
  2. 초기 Computer Vision 연구(1960~80년대)
    • Larry Roberts “Block World” (1963): 단순 기하학 형태로 장면 재구성
    • MIT Summer Vistion 프로젝트(1966): 여름 한 철에 전체 비전 시스템 구현 시도
    • David Marr(1970s): “Primal Sketch → 2.5D Sketch → 3D Representation” 계층 모델 제안
    • 형태 기반 모델 (generalized cylinders, pictorial structures), Lowe의 선·엣지 모델 등
  3. Machine Learning 도입과 특징 기반 접근(1990s~2000s 초)
    • SIFT, HOG, DPM 등 특징(feature) 추출·매칭 기법 발전
    • Viola–Jones 얼굴 인식(2001): AdaBoost 기반 실시간 얼굴 검출
    • PASCAL VOC 및 벤치마크 데이터셋 등장 → 알고리즘 성능 비교 가능
  4. ImageNet & 딥러닝 혁명(2010년대)
    • ImageNet 구축(약 1천만 장 이상, 수천 개 클래스) 및 ILSVRC 대회(2010~)
    • 2012년 AlexNet: CNN 기반 모델이 16% 오류율로 인간 수준 도달, 딥러닝 주류화
    • 이후 GoogleNet, VGG, ResNet(152층) 등 초고층 신경망 등장

3. 핵심 개념 & 최신 동향

  • Convolutional Neural Networks (CNN)
    • 이미지 분류, Object Recognition, Image Segmentation, 캡셔닝 등 다양한 응용의 근간
    • 2012년 이후 더 깊고 복잡한 네트워크 구조·최적화 기법 활발
  • 응용 분야
    • 자율주행, 의료 진단, 로보틱스, 증강/가상현실, 시맨틱 세그멘테이션, 3D 재구성, 행동 인식 등
  • 미래 과제
    • 픽셀 단위 이해(semantic segmentation), 고차원 3D 모델링, 장면 내 의미 관계 그래프, 깊은 맥락 이해

4. 수업 개요 및 운영

  • 강의진: Fei-Fei Li 교수(총괄), Justin Johnson·Serena Yeung(PhD 조교), 18명의 TA
  • 플랫폼: 강의자료·Q&A는 Piazza 활용, 이메일은 개인적·비공개 문의에 한정
  • 교재: Goodfellow et al. “Deep Learning” (선택 도서)
  • 과제 & 평가
    1. 프로그래밍 과제(Python 기반, CNN 직접 구현)
    2. 중간고사
    3. 최종 프로젝트(3인 1조)
    • Late days 총 7일 유연 활용 가능
    • Honour Code 엄격 준수
  • 선수 지식: Python, 선형대수, 미적분(도함수), CS131/CS231a(컴퓨터 비전 기초), CS229(기계학습) 수준
profile
🌻

0개의 댓글