비전 : 시각적인 정보들의 집합
시각으로 보이는 것을 숫자로 데이터화 하여 저장한 모든 것.
시각정보 : 빨강R, 초록G, 파랑B
(256, 0, 0), (0, 256, 0), (0, 0, 256)
vision 데이터들에서 의미 있는 정보를 추출하고 이를 이해하는 것을 바탕으로 여러가지 작업을 수행하는 것
이미지 처리
Feature Extraction(추출)
pose estimation
action recognition : 동영상내에 행동을 인식하는 활용
Re-identification - 특정한 사람을 놓치지 않고서 활용할 수 있음.
OCR, 비정형 이미지에서 정형으로 검출
문서 내 텍스트에서 비용절감과 서비스의 질 향상을 수요함.
Medical image Analysis
Mass, Effusion, Pneumonia 등의 예측
Generative Mdoels
GAN : 이미지 생성
Virtual-Try-on (VITON) : 사지 않아도 실제 착용한 이미지를 가상으로 봄.
Text to image : 문장을 입력으로 이미지를 생성할 수 있음.
Image to Video : 이미지에서 영상으로 생성함.
Modify videos with Texts : 문장와 이미지로 video 생성
NeRF : 3D 렌더링을 만들 수 있음.
Brain Signals : 이미지를 본 사람의 뇌를 통한 뇌파신호(EGG)로 이미지 생성