인간의 시각을 흉내내는 컴퓨터 비전

‍이세현·2024년 9월 28일
1

인간의 시각

인간의 시각은 영상을 보고 인식, 추론, 예측, 상상 등을 수행한다.

  • 시각은 오감 중에서 가장 뛰어남
  • 인간의 눈의 구조와 동작
    • 뇌의 등쪽 경로는 물체의 움직임을 알아내고 배쪽 경로는 물체의 부류를 알아냄
    • 매 순간 빠르고 정확하게 빛이라는 데이터를 인식
  • 인간 시각의 강점
    • 분류, 검출, 분할, 추적, 행동 분석에 능숙
    • 3차원 복원 능력
    • 빠르고 강건
    • 다른 지능 요소인 지식 표현, 추론, 계획과 협동
    • 사전 행동(proactive)에 능숙
    • 과업 전환이 매끄럽고 유기적이고 빠름
    • 비주얼 서보잉이 뛰어남
  • 인간 시각의 한계
    • 상대적 정보에 따라 착시가 있음
    • 정밀 측정에 오차가 있음
    • 한정된 시야
    • 피로와 퇴화

왜 컴퓨터 비전인가

  • 컴퓨터 비전: 인간의 시각을 흉내내는 컴퓨터 프로그램
    • 인공지능의 중요한 구성 요소
    • 현재 CV 기술로 인간에 필적하는 시각 구현 불가능
    • 과업을 한정하면 인간 성능에 가깝거나 뛰어넘는 응용 가능
  • 응용 사례: 농업, 의료, 교통, 스마트 공장, 스포츠, 유통, 보안, 에너지, 엔터테인먼트 등
  • 컴퓨터 비전이 풀어야 할 문제: 분류, 검출, 분할, 추적, 행동 분석 등
    • 특정 상황에 따라 다양하게 변형(fine tuning)
    • 다른 지능 요소와 협업
      • ex) 자연어 처리를 통한 영상 설명
  • 궁극적인 목표
    • 일반적인 상황에서 잘 작동하는 인간과 같은 시각. 즉, 강한 인공지능
  • 현실적인 목표
    • 제한된 환경에서 특정 과업을 높은 성능으로 달성. 즉, 약한 인공지능
    • 컴퓨터 비전 문제를 여러 세부 문제로 구분하고 세부 문제별로 알고리즘 구상

컴퓨터 비전은 왜 어려운가

  • 세상의 변화
    • 환경 변화, 보는 위치와 방향의 변화, 강체와 연성 물체
    • 원자부터 우주까지 긴 스펙트럼에서 영상 수집
  • 컴퓨터 비전이 인식해야 하는 영상은 아주 큰 숫자 배열
  • 인공지능의 미숙함
    • 지식 표현, 추론, 계획, 학습이 유기적으로 동작할 때만 강한 인공지능 가능
    • 강한 인공지능은 여전히 먼 미래의 일이다.

컴퓨터 비전의 역사

OpenCV 이전에 Image Primitive Library가 있었다.

  • 신문 산업에서의 디지털 영상
    • 1920년 유럽과 북미 간 케이블을 통한 사진 전송 시스템(Bartlane) 개통
  • 1926년 세계 최초 범용 전자식 컴퓨터 에니악 탄생
    • 초당 3000개 가량 덧셈
  • 1957년 스캐너를 통해 디지털 영상을 컴퓨터에 저장
연도사건
1920Bartlane 영상 전송 케이블 시스템 구축
1946세계 최초 전자식 범용 디지털 컴퓨터 에니악 탄생
1957커쉬가 세계 최초로 디지털 영상을 컴퓨터에 저장
1983CVPR 개최
2000CVPR에서 OpenCV 알파 공개
2012ILSVRC 대회에서 AlexNet 우승

AlexNet의 등장은 Data Driven Learning인 Deep Learning의 시작을 의미한다.

profile
Hi, there 👋

0개의 댓글

관련 채용 정보