전통적 디지털 영상처리와 AI를 통한 영상처리

kenGwon·2023년 11월 6일
0

[OpenCV] Computer Vision

목록 보기
2/4

영상에서 등록된 이미지의 패턴(동일이미지) 위치를 알 수 있는 방법은?

이미지 크기만큼 모든 픽셀 범위를 순차적으로 탐색하면서, 일치율이 가장 높은 곳의 픽셀 범위를 리턴하면 동일한 형태라는 것을 알 수 있을 것이다. (openCV에서 탐색은 ) 또한 색깔 정보도 비교하여 색깔의 일치율도 같다면, 완전히 같은 이미지라고 볼 수 있겠다.

여기서 이미지를 검색할 때 글로벌 영역 전체를 순차적으로 탐색하는 것은 연산 효율이 좋지 않다. 그래서 ROI(region of interest) 영역을 잡아놓고 그 ROI 영역을 옮겨가면서 탐색하는식으로 하면 연산효율이 크게 상승한다.

디지털 영상처리

디지털 영상을 다룬다는 것은 아날로그 영상도 있다는 것이다. 아날로그 영상의 대표적인 예시는 필름이 있다.

예전에는 디지털 영상처리 다양한 세부 파트에서 '영상 개선', '영상 복원', '영상 변환' 여기에 포커스가 맞춰져 있었다. 영상들의 화질이 좋지 못했기 때문이다. 그러나 기술이 발전하면서 영상들의 퀄리티가 좋아지면서 오히려 '영상 압축'이 필요해졌다.(bmp -> jpg / avi -> mmpeg -> heic) 그리고 그 퀄리티 좋은 영상들을 바탕으로 '영상 분석', '영상 인식'을 하는 분야갸 디지털 영상처리에서 가장 핫한 분야로 자리잡게 되었다. 이 두 분야에 들어온 핵심 기술이 머신러닝과 AI(딥러닝)인 것이다.

영상 개선

필터 같은 것들만 보아도 최근 10년 사이에 AI가 들어오면서 기술발전이 매우 크게 되어 다양한 필터들이 상용앱에서도 편리하게 사용 가능하게 되었다.

하드웨어의 발전도 영상처리 발전에 기여했다.

애플의 faceID 기술이 가능했던 이유는 카메라 하드웨어의 해상도가 비약적으로 발전하여 고해상도 영상에서 수만개의 포인트를 찍을 수 있게 되었기 때문이다.

머신러닝의 힘

광학문자인식(OCR, Optical Character Recognition)

이마트 들어갈때 차량번호 자동인식 하는 기술은 OCR 머신러닝으로 구현되어있다. OCR 머신러닝은 99.9% 차량번호 인식을 보장한다.(극한 호우, 극한 강설 상황이0.1%)

직장인 필수앱, 리멤버

우리나라에 리멤버라는 앱이 있다. 명함을 사진을 찍어서 명함을 관리해주는 앱이다. 종이로 된 명함을 통해 형성되는 인맥 네트워크를 형성해주겠다는 것을 목표로 하고 있는 것 같다. 미국에 있는 linked.in이라는 시스템이 바로 서로의 인맥 네트워크를 필두로 운영되었던 서비스이다. 우리나라에서는 리멤버라는 앱이 그 역할을 차지하기 위해 노력중인듯 하다. 명함을 찍는 것만으로 거기에 적힌 글자 정보를 빼오는 것도 OCR로 구현되어 있을 수도 있다.

의료영상기술

우리나라에 뷰노라는 회사가 있는데, 이 뷰노를 비롯하여 우리나라 회사들이 의료 영상 기술 특허를 무지하게 많이 가지고 있다. 의료영상 기술도 머신러닝으로 구현된 것들이 많은데, 그중 대표적인 것이 인체에 해를 끼치지 않으면서 내부를 영상화 하는 것이다. 초음파 MRI, CT, PET 등을 단 한장만 찍어도 다양한 형태의 영상을 머신러닝으로 만들어주는 것이다. 그 서비스 한번 이용하는데 500원만 받아도 국내 시장 크기만 3000억 규모가 된다고 한다. 확실히 사업성이 증명된 사업모델이기 때문에 이 의료영상 머신러닝 분야는 앞으로 근 10년은 잘 나갈 것으로 예상되는 분야 중 하나이다.

공장 자동화

우리나라의 공장 자동화 기술 업체들이 기술 수준이 상당하다. 기술 수준이 일본 > 한국 > 중국 정도라고 보여지고 있었는데, 최근들어 단가적인 측면에서 중국이 크게 메리트를 보여 우리나라 여러 업체들이 중국의 공장 자동화 기술을 받아들이는 경우가 늘어나고 있다.

visible camera와 infrared camera

우리가 사용하는 카메라는 visible camera와 infrared camera로 나눌 수 있다.
한국어로 하면 일반 카메라와 적외선 카메라가 되겠다.

interactive game

우리가 살고 있는 세상이 가장 근 미래에 어떻게 바뀔 것인가에 대해 가장 유사한 이미지로 묘사하는 영화로 <레디 플레이어원(스티븐 스필버그)>가 있다.
그리고 그 영화에서 나오는 가상현실 장비를 드디어 Apple이 Vision pro 제품을 출시함으로써 우리가 살고 있는 실제 현실에서 만나볼 수 있게 되었다.(구글 글래스? 메타 오큘러스? 그냥 애플의 vision pro가 현재 가상현실 기기의 최전선에 서있는게 확실해졌다.)
머신러닝의 기술이 발전하고 반도체가 뒷받침되면서 서서히 산업이 가상현실쪽으로 이동하고 있는게 확실하다. 이러한 거대한 산업의 흐름을 볼 줄 알아야 한다.

LG 롤러블 디스플레이: "상소문 디스플레이"

자동차의 경우 센터페시아가 굴곡질수 밖에 없는데 디스플레이는 평면이어야 하다보니까 어쩔 수 없이 모니터를 박아놔서 내부 디자인이 망가지게 된다. 그런데 LG가 개발하고 있는 롤러블 디스플레이가 센터페시아에 들어간다고 생각해보자. 자동차 회사들이 환장할 것이다. 그만큼 롤러블 디스플레이의 전망은 매우 유망한 것이다.

산업의 흐름이 변화는 것을 볼 줄 알아야 한다.

왜 애플에서 디즈니를 가져가려고 할까. 비전프로와 연계하여 가상현실 세계에서 그걸 활용한 미디어 매체를 선보여서 많은 사람들의 체류시간을 가상현실 세계로 이동시켜서 거기서 수익을 창출하려는게 아닐까. 애플 비전프로 500만원이라고 비싸다고 생각하면 생각의 전환이 안된 것이다. 500만원이 싸다고 느껴질 정도로 애플비전프로 제품은 엄청난 기술(부품)의 집약체이다.

비전프로의 등장으로 시대가 바뀌고 있다는걸 느꼈으면 좋겠다는 말씀

교수님은 비전프로가 나오는걸 보면서 디스플레이 시장이 망할거라고 생각했다고 한다. 비전프로가 주는 인사이트가 무엇인가. 비전프로가 나옴으로써 타격을 받게될 산업이 무엇일지 예상해볼 수 있을 것이다.

vision pro가 나왔을 때의 충격은 아이폰3gs가 처음 나왔을 때의 충격과 유사할 정도이다. 비전프로에 들어가는 장비들(카메라, 칩, 곡률 개방형 디스플레이, 콘텐츠 등)에 관련된 회사에 들어갈 수도 있는 것이다. 진짜 10년 후에는 모두가 비전프로를 쓰고 다닐 수도 있는 것이다. 그 미래에 대응하는 회사에 들어가야 한다.

나는 지금까찌 임베디드 리눅스 쪽으로만 시야가 좁혀져있었다. 비전프로가 선도할 새 시대에 어울리는 임베디드 회사 쪽을 알아봐야 할 것 같다.

차량쪽에서도 자율주행 구현에 필요한 카메라 수와 레이더 갯수의 대한 표준이 슬슬 나올 것으로 보인다.
우리가 공모전에 대해 내는 아이디어들은 사실 대부분 비전프로로 이미 구현이 가능한 것들이 대부분일 수 있다는 것이다.

42dot

현대에서 정의선 회장의 자금세탁을 하기 위해 만들어 놓은 회사라고 말할 정도로 현대의 지원을 받고 있는 회사이고, 자동차 자율주행을 연구하고 있는 회사이다.

"인식": 인간이 인지하는 시각

우리의 인지시스템은 평면의 변화가 없는 곳에 대해서는 집중을 하지 않고, 변화가 발생하는 곳에 집중하도록 진화되었다.

lena이미지

인간이 딱 바라보았을 때 응시하게 되는 위치는 대부분 고주파가 위치하는 것이다.
lena 그림에서 파란색 모자 깃털은 가장 큰 고주파로 구성되어 있기 때문에 가장 먼저 눈에 띄게 된다.

영상의 공간영역 처리에 있어서..

  • '저주파' 성분이란 주변영역과 색의 차이가 적은 부분을 말하고,
  • '고주파' 성분이란 주변영역과 색의 차이가 크게 나는 부분을 말한다.

영상을 압축하면 고주파 데이터들이 많이 소실되게 된다.(저주파는 압축해도 손실이 크지 않다.)

디지털 영상 취득을 가장 잘 표현한 영상

화웨이 p9 leica sensor

RGB센서와 흑백센서가 동시에 있으면, 흑백센서는 물체의 감도를 잘 받아들일 수 있는 역할을 하고 RGB센서는 색 대비를 잘 표현할 수 있도록 정보를 받아들이는 역할을 한다. (같은 n by n 크기의 센서라 하더라도 rgb센서는 흑백센서보다 1/3크기일수 밖에 없기 때문이다. 실질적으로는 ) 그래서 화웨이 p9의 경우 두 센서로 찍은 받아들인 영상 정보를 배합하여 결과적으로 풍부한 색감을 가진 영상을 찍을 수 있게 된 것이다.

(교수님 수작업 피피티 자료 캡쳐해서 여기에 올리기)

영상 취득과 표현: 스테레오 정합

두개의 카메라를 이용하여 3차원 정보를 획득하는 기술
축구 경기를 볼 때 가끔 나오는 반칙 장면 3D 재구성이 바로, 뎁스 카메라(depth camera)를 여러개 이용하여 3차원 정보를 조합해낸 것이다.

구조광 방식과 TOF 방식

구조광 방식은 보안방식으로는 적합하다. 하지만 AR이나 VR방식에는 적합하지 않다. 왜냐하면 구조광 방식은 근거리에만 적합하기 때문이다. VR에는 거리의 멀고 가까움을 통해 실제처럼 느껴지도록 하는 것이 중요한데, 구조광 방식으로는 그것을 해낼 수 없기 때문이다. 그래서 본격적인 AR/VR시대 시작과 함께 거리 측정이 가능한 TOF 카메라를 달고 있는 스마트폰이 막 출시될 것으로 보인다.

공모전에 관심있어 하는 학생들은 가장 먼저 접하게 되는 것이 라즈베리 카메라일텐데 그걸 어떻게 핸들링 하는지 정확히 이해하기 위해서는 오늘과 같은 이론 수업이 있어야 제대로 이해할 수 있을 것이다. 대부분의 카메라 시스템들은 왜곡(distortion)이 발생한 채로 영상을 찍어내게 된다. 라즈베리 카메라 역시 마찬가지이다. 그래서 그러한 왜곡들을 소프트웨어적으로 어떻게 핸들링 해야하는지 알려면 그 제반 지식이 필요한 것이다.

조리개(aperture)

들어오는 빛의 양을 조절하기 위해, 입사량에 따라 조리개 통로의 크기를 조정

HSV를 쓰는 이유

RGB이미지를 HSV로 컨버팅하면 H 값 범위를 어떻게 주느냐에 따라 이미지에서 원하는 색만 뽑아낼 수 있다. 즉, 영상에서 원하는 컬러만 뽑아내고 싶을 때 보통 영상을 HSV로 컨버팅 하여 작업하게 된다.
게다가 HSV는 우리 인간의 인지 시스템과 유사한 부분이 많아서 값을 표현하는 것에 있어서 강점이 발생한다.

AI의 등장

근 10여년 사이에 AI의 등장으로 고만고만 했던 제반 기술들이 매우 큰 변곡점을 맞이하고 있다. 과거에는 몇년이 걸리던 작업을 AI가 몇개월 만에 해결해버리니, 전 분야의 개발자들이 AI의 동작 방식을 공부하지 않을 수가 없는 것이다.

profile
스펀지맨

0개의 댓글