Convolutional neural networks (CNNs) [23] have been the standard for computer vision, since the success of AlexNet [22].
CNN(Convolutional Neural Networks)[23]은 AlexNet[22]의 성공 이후로 컴퓨터 비전의 표준이었습니다.
Krizhevsky et al. showed that convolutions are adept at vision based problems due to their invariance to spatial translations as well as having low relational inductive bias.
adept 능숙한 invariance 불편성
Krizhevsky 등은 컨볼루션이 공간 변환에 대한 불변성뿐만 아니라 낮은 관계 유도 편향성을 가지고 있기 때문에 시각 기반 문제에 능숙하다는 것을 보여주었다.
He et al. [16] extended this work by introducing residual connections, allowing for significantly deeper models to perform efficiently.
그는 외. [16]은 잔여 연결을 도입하여 이 작업을 확장하여 훨씬 더 깊은 모델이 효율적으로 수행할 수 있도록 했습니다.
Convolutions leverage three important concepts that lead to their efficiency: sparse interaction, weight sharing, and equivariant representations [14].
equivariant 등변량
컨볼루션은 효율성을 높이는 세 가지 중요한 개념인 희소 상호작용, 가중치 공유 및 등변량 표현을 활용합니다[14].
Translational equivariance and invariance are properties of the convolutions and pooling layers, respectively [14, 36].
respectively 각각
변환 등분산 및 불변성은 각각 컨볼루션 및 풀링 레이어의 특성입니다 [14, 36].
They allow CNNs to leverage natural image statistics and subsequently allow models to have higher sampling efficiency [34, 34].
이를 통해 CNN은 자연 이미지 통계를 활용하고 이후 모델이 더 높은 샘플링 효율성을 가질 수 있다[34, 34].
On the other end of the spectrum, Transformers have become increasingly popular and a major focus of modern machine learning research.
스펙트럼의 다른 쪽 끝에서 트랜스포머는 점점 더 인기를 얻고 있으며 현대 기계 학습 연구의 주요 초점이 되었습니다.
Since the advent of Attention is All You Need [41], the research community saw a spike in transformer-based and attention-based research.
spike 급등, 급증 advent 출현
Attention is All You Need [41]의 등장으로 인해, 연구 커뮤니티에서는 변압기 기반 및 주의 기반 연구가 급증했습니다.
While this work originated in natural language processing, these models have been applied to other fields, such as computer vision.
originated 출현하다, 유래하다
이 작업은 자연어 처리에서 시작되었지만 이러한 모델은 컴퓨터 비전과 같은 다른 분야에 적용되었습니다.
Vision Transformer (ViT) [12] was the first major demonstration of a pure transformer backbone being applied to computer vision tasks.
ViT(Vision Transformer)[12]는 순수한 변압기 백본이 컴퓨터 비전 작업에 적용된 최초의 주요 데모였습니다.
ViT highlights not only the power of such models, but also that large-scale training can trump inductive biases.
trump 능가하다
ViT는 그러한 모델의 힘뿐만 아니라 대규모 훈련이 귀납적 편견을 이길 수 있다는 것을 강조한다.
The authors argued that “Transformers lack some of the inductive biases inherent to CNNs, such as translation equivariance and locality, and therefore do not generalize well when trained on insufficient amounts of data.”
저자들은 "트랜스포머는 번역 등분산 및 지역성과 같은 CNN 고유의 귀납적 편향의 일부가 부족하기 때문에 불충분한 양의 데이터에 대해 교육을 받으면 일반화가 잘 되지 않는다"고 주장했다.
Over the past few years, an explosion in model sizes and datasets has also become noticeable which has led to a “data hungry” paradigm, making training transformers from scratch seem intractable for many types of pressing problems, where there are typically several orders of magnitude less data.
intractable 다루기 힘든 magnitude 규모의 pressing 긴급한
from scratch 처음부터
지난 몇 년 동안 모델 크기와 데이터 세트의 폭발적 증가도 눈에 띄어 "데이터 헝그리" 패러다임으로 이어졌고, 일반적으로 데이터가 수십 배 적은 여러 유형의 긴급한 문제에 대해 처음부터 변압기를 훈련시키는 것이 어려워 보였다.
It also limits major contributions in the research to those with vast computational resources.
또한 방대한 계산 자원을 가진 사람들에게 연구에 대한 주요 기여를 제한합니다.
As a result, CNNs are still the go-to models for smaller datasets because they are more efficient, both computationally and in terms of memory, when compared to transformers.
Go-to 다른 것보다 일반적으로 선택되는 것을 의미
결과적으로 CNN은 트랜스포머와 비교할 때 계산적으로나 메모리 측면에서 더 효율적이기 때문에 여전히 더 작은 데이터 세트에 사용되는 모델입니다.
Additionally, local inductive bias shows to be more important in smaller images.
또한 로컬 유도 바이어스는 작은 이미지에서 더 중요한 것으로 나타났습니다.
They require less time and data to train while also requiring a lower number of parameters to accurately fit data.
데이터를 정확하게 맞추기 위해 더 적은 수의 매개변수가 필요한 동시에 훈련하는 데 더 적은 시간과 데이터가 필요합니다.
However, they do not enjoy the long range interdependence that attention mechanisms in transformers provide.
interdependence 상호의존적
그러나 그들은 변압기의 주의 메커니즘이 제공하는 장거리 상호 의존성을 즐기지 않습니다.
Reducing machine learning’s dependence on large sums of data is important, as many domains, such as science and medicine, would hardly have datasets the size of ImageNet [10].
과학과 의학 같은 많은 도메인에는 ImageNet[10] 크기의 데이터 세트가 거의 없을 것이기 때문에 대량의 데이터에 대한 머신 러닝의 의존도를 줄이는 것이 중요하다.
This is because events are far more rare and it would be more difficult to properly assign labels, let alone create a set of data which has low bias and is appropriate for conventional neural networks.
이는 이벤트가 훨씬 더 드물고 적절하게 레이블을 할당하는 것이 더 어려울 수 있기 때문입니다. 편향이 낮고 기존 신경망에 적합한 데이터 세트를 생성하는 것은 고사하기 때문입니다.
In medical research, for instance, it may be difficult to compile positive samples of images for a rare disease without other correlating factors, such as medical equipment being attached to patients who are actively being treated.
compile 수집하다
예를 들어, 의학 연구에서, 의료 장비가 적극적으로 치료되고 있는 환자에게 부착되는 것과 같은 다른 상관 요소 없이 희귀 질환에 대한 이미지의 양성 샘플을 수집하기 어려울 수 있다.
Additionally, for a sufficiently rare disease there may only be a few thousand images for positive samples, which is typically not enough to train a network with good statistical prediction unless it can sufficiently be pre-trained on data with similar attributes.
또한, 충분히 희귀한 질병의 경우 양성 샘플에 대한 이미지가 수천 개에 불과할 수 있으며, 이는 유사한 속성을 가진 데이터에 대해 충분히 사전 훈련될 수 없다면 일반적으로 우수한 통계적 예측으로 네트워크를 훈련시키는 데 충분하지 않습니다.
This inability to handle smaller datasets has impacted the scientific community where they are much more limited in the models and tools that they are able to explore.
inability 무능력
더 작은 데이터 세트를 처리할 수 없는 이러한 무능력은 그들이 탐색할 수 있는 모델과 도구에서 훨씬 더 제한적인 과학 커뮤니티에 영향을 미쳤습니다.