Computer Vision

ww_ung·2025년 3월 18일

SKALA

목록 보기
11/25

Computer Vision은 컴퓨터가 이미지를 보고 사람처럼 인식하고 이해할 수 있도록 하는 인공지능(AI) 기술 분야를 말한다. 현재는 AI와 딥러닝을 활용한 고도화된 영상 처리 기술이 다양한 산업에서 활용되는 단계로 자율주행, 의료, 보안, 스마트 팩토리등 여러 분야에서 활약하고 있다.

대표적인 모델은 CNN으로 앞선 글에서 짧게 나마 다뤄본적이 있다.
이번 글에서는 CNN에서 발전된 모델들을 알아보려고 한다.

AlexNet

AlexNet은 2012년 ImageNet 대회에서 압도적인 성능으로 우슨한 CNN모델이다.
당시 성능을 끌어올리기 위해서는 많은 양의 데이터 셋이나 더 강력한 모델이 필요했는데, AlexNet은 이전 모델보다 훨씬 깊은 구조(5개의 Conv, 3개의 FC)로 많은 뉴런들을 사용하여 학습해 높은 성능을 보여줬다.

ReLU

ReLU를 본격적으로 널리 사용한 최초의 모델로 알려져있다.
ReLU를 도입해 비선형성을 강화하고 학습속도를 향상시켰고, 이후 대부분의 CNN 모델이 ReLU를 기본 활성화 함수로 사용한 모습을 확인할 수 있다.

DropOut

뉴런의 일부를 확률적으로 제거하여 과적합을 방지하는 기법을 최초로 적용하여 효과를 입증하였다.
DroupOut은 확습 과정에서 뉴런의 일부를 랜덤하게 비활성화 하는 방법으로 모델이 더 일반적인 패턴을 학습하고, 새로운 데이터에 대한 예측을 높일 수 있었다.

computer vision의 의 출발점이 된 모델로 이후 CNN 모델들의 성능 개선을 위한 기초를 닦은 중요한 연구였다고 할 수 있다.

ResNet

ResNet(Residual Network)은 2015년에 마이크로소프트 연구팀에서 발표한 딥러닝 모델로 잔차를 학습하도록 만들어진 잔차 신경망을 말한다.
이때는 성능 향상을 위해 신경망 깊이를 과도하게 늘리던 시기였다.
신경망의 깊이가 깊어지면서 Gradient Vainishing 문제가 발생하였고, 이에 따라 정보의 손실이 발생하였다.

Gradient Vainishing이란 기울기가 0으로 수렴하게 되면서 학습이 제대로 이루어지지 않는 현상을 말한다.

이때 Residual Block(잔차 블록)을 도입해서 입력(원본)정보를 잃기전에 다음으로 skip해주는 구조를 실행하게 된다(Skip Connection)
어차피 믿져야 본전의 느낌으로 사라지느니 원본 데이터라도 보장해주나 이런 개념이다. 구조적으로 데이터 소실 가능성을 방지하는 방식이라고 할 수 있는데, 기울기가 0으로 가까워 지면서 학습이 어려운 층을 찾아낼 수 있고, 이때 원본데이터라도 전달하게 된다.

이렇게 잔차블록을 통해 층이 깊어지더라도 과적합이나 기울기 소실의 문제를 해결하게 됨으로써 레이어를 깊게 쌓아 성능이 좋아지게 되는 계기가 되었다.

DenseNet

DenseNet(Densely Connection Convolutional Network)은 CVPR 논문에서 제안한 CNN 모델로 "모든 층을 직접 연결하는 Dense Connectivity"라는 개념에서 도입된 모델이다.

Resnet은 기존 Conv층이 너무 많이 쌓이게 되면 너무 많은 연산과 필터로 인해 한참 이전의 레이어와 이후의 레이어간의 논리를 합쳐 전개하지 못한다는 단점이 존재한다.
이때 각 레이어를 모든 이전의 레이어와 연결하면 더 좋은 성능을 얻을 수 있지 않을까 라는 생각에서 착안된 구조이다.

ResNet에 비해 더 적은 파라미터로도 높은 성능을 유지할 수 있었고, 더 깊은 네트워크에서도 학습이 쉬워지게 되었다.

EfficientNet

EfficientNet은 딥러닝 모델의 성능을 높이기 위해 네트워크 구조를 효율적으로 확장하는 방법을 제안한 논문이다.
앞선 CNN 모델들은 네트워크를 더 깊고, 넓고, 크게 확장하면서 성능이 향상되는 구조를 가지고 있다. 하지만 무작정 확장하게 되면 연산량이 기하급수적으로 증가하게되고, 비효율적이라는 결론에 다다르게 된다.

더 좋은 정확도와 효율성을 얻기 위해 scale-up하는 원초적인 방법이 무엇일지 고민하다가 Compound Scaling 방법을 제안하게 된다.

Compound Scaling(복합 확장)

쉽게 말해 네트워크를 최적의 비율로 깊이,넓이,크기(해상도)를 동시에 확장하자는 개념이다.
균일하게 scaling해주는 방식을 통해 연산량을 줄이면서도 성능을 유지하도록 최적화시키게 된다.


이후 컴퓨터 비전의 모델의 패러다임은 더 이상 CNN만으로 설명되지 않는다.
CNN 모델의 한계를 극복하기 위해 EfficientNetV2가 등장하였고 동시에 ViT와 같은 Transformer기반 모델이 등장하면서 CNN과 경쟁하기 시작했다. 현재는 CNN과 Transformer의 장점을 결합해 하이브리드 모델이 연구되며 이미지 생성, 변환, 보강 등 넓은 분야로 확장되고 있다.

0개의 댓글