해당 글은 제로베이스데이터스쿨 학습자료를 참고하여 작성되었습니다
컴퓨터 비전이란?
- 컴퓨터를 이용하여 정지 영상 또는 동영상으로부터 의미있는 정보를 추출하는 방법을 연구하는 학문
- 사람이 눈으로 사물을 보고 인지하는 작업을 컴퓨터가 수행하게 하는 학문
1. 컴퓨터 비전 개요
Computer Vision과 Image Processing
Computer vision
- 컴퓨터로 이미지와 영상으로부터 정보를 추출하고 분석하는 분야
Image Processing
- 컴퓨터 비전을 위해 영상을 입력받아 화질 개선 등의 전처리를 의미
컴퓨터 비전의 역사
컴퓨터 비전 응용 분야
영상의 화질 개선
- 카메라로 찍은 사진을 더욱 선명하게 만들거나 색상을 변경
- RAW 영상의 변환, 필터, 노이즈제거, 화질변경 등
내용 기반 영상 검색
- 영상에 존재하는 사람, 사물, 색상 정보 등을 인식하여 유사한 영상을 자동으로 찾아주는 시스템(Visual Search)
얼굴 검출 및 인식
- 얼굴 검출 : 영상에서 얼굴의 위치와 크기를 찾는 기법
- 얼굴 인식 : 검출된 얼굴이 누구인지 판단하는 기술
의료영상처리
- X-ray 또는 CT 영상처리
- 영상의 화질 개선, 자동분석
광학 문자 인식
- 영상에 있는 텍스트를 인식.
- OCR(Optical Character Recognition)
- 번역, 자동차 번호판 인식
머신 비전
- 공장 자동화 : 제품의 불량 검사, 위치 확인, 측정 등
- 높은 정확도와 빠른 처리 시간 요구
인공지능 서비스
- 입력영상을 객체와 배경으로 분할 -> 객체와 배경 인식 -> 상황 인식 -> 로봇과 자동차의 행동지시
- Computer Vision + Sensor Fusion + Deep Learning
- 인공지능 로봇, Amazon Go, 구글/테슬라 자율 주행 자동차
2. 영상데이터의 구조
영상데이터의 구조
-
영상이란?
- 픽셀이 바둑판 모양의 격자에 나열되어 있는 형태(2차원 행렬)
- pixel : 영상 기본 단위
-
영상의 좌표계
- 이미지는 가로 x 세로로 표기
- 행렬은 세로 x 가로로 표기
- 헷갈릴 수 있으니 주의
3. 영상데이터의 종류
Grayscale Image
- 흑백사진, 색상 채널 1개
- 밝기 정보를 256단계로 표현
Truecolor Image
-
컬러사진, 색상채널 3개
-
RGB 성분을 각각 256단계로 표현(2563=16,777,216)
-
하나의 픽셀이 3개의 요소를 갖는 경우(C++)
-
픽셀이 3차원 행렬로 구성되는 경우(Python)
4. 주요 영상 파일 형식 특징
BMP
- 압축X, 그대로 저장 -> 용량 큼
- 파일구조 단순
-> 별도의 라이브러리 도움없이 프로그래밍 가능
JPG
- 주로 사진과 같은 컬러 영상 저장
- 압축률이 좋아서 파일용량 크게 감소
- 손실 압축(Lossy compression)
- 이미지정보를 손실하는 압축
-> 프로그램의 고성능을 요구하는 경우 사용하지 않음
GIF
- 256색상 이하의 영상을 저장
-> 색상 정보 손실이 크기 때문에 사용하지 않음
- 움직이는 GIF 지원
- 무손실 압축(Lossless compression)
PNG
- Portable Network Graphics
- 무손실 압축
- 알파 채널(투명도)을 지원
영상 데이터의 용량