딥러닝_CNN_합성곱연산(Convnet)_4. 최신 컨브넷 아키텍처 패턴

주지윤·2022년 12월 9일

딥러닝

목록 보기

17/21

최신 컨브넷 아키텍처 패턴

아키텍처(architecture)

아키텍처란?
- 모델을 만드는 데 사용된 일련의 선택들
- 가설공간을 정의
- 사진 지식(prior knowledge)을 인코딩
  - ex: 이미지에 있는 패턴이 이동 불변성이 있음을 이미 알고 있음
아키텍처 공식: MHR
- 모듈화(=블록): 반복되는 층 그룹
- 계층화: 모듈의 계층화, 대부분의 컨브넷은 피라미드 계층
- 재사용(=추상화): 모듈을 적절한 곳에 재사용
아케텍처 모범사례
- 잔차연결(residual connection)
- 배치 정규화(batch normalization)
- 분리 합성곱(seaprable convolution)

잔차연결(residual connection)

개발 배경
- 필터 개수는 층이 깊어질수록 늘어나고, 특성 맵의 크기는 줄어든다.
- 역전파가 전달될 때 층이 너무 깊으면, 각 함수의 일정 잡음들의 영향으로 그레이디언트 정보가 소실되고 역전파가 동작하지 않게 된다.: 그래이디언트 소실(vanishing gradient)
- 이를 해결하기 위해 개발: 잔차연결
- ResNet모델과 함께 소개됨
잔차연결의 방식
- 이전 입력에 담긴 잡음이 없는 정보를 따로 저장하여 유지시킴
- 층의 입력을 출력에 더함

🔸 간단한 컨브넷 잔차연결 예시

입력을 출력에 더하기 위해서는 출력크기가 입력과 같아야함
Conv층: 입력값을 더하기 위해 Conv층에padding='same'으로 다운샘플링을 방지
MaxPooling층: MaxPooling층의 입력 값을 저장할 때 strides=2로 다운샘플링을 맞춤

inputs = keras.Input(shape=(32, 32, 3))
x = layers.Rescaling(1./255)(inputs)

#--------------------------------------------------------------#

def residual_block(x, filters, pooling=False):
    
    residual = x
    x = layers.Conv2D(filters, 3, activation="relu", padding="same")(x)
    x = layers.Conv2D(filters, 3, activation="relu", padding="same")(x)
    
    if pooling:
        x = layers.MaxPooling2D(2, padding="same")(x)    
        residual = layers.Conv2D(filters, 1, strides=2)(residual)
    
    # 최대 풀링을 사용하지 않을 때 채널 수가 바뀐 경우에만 잔차 투영
    elif filters != residual.shape[-1]:
        residual = layers.Conv2D(filters, 1)(residual)
    
    x = layers.add([x, residual])
    
    return x
    
#-------------------------------------------------------------#  

x = residual_block(x, filters=32, pooling=True)
x = residual_block(x, filters=64, pooling=True)
x = residual_block(x, filters=128, pooling=False)
 
x = layers.GlobalAveragePooling2D()(x)
outputs = layers.Dense(1, activation="sigmoid")(x)
model = keras.Model(inputs=inputs, outputs=outputs)
model.summary()

배치 정규화(batch normalization)

정규화: 샘플들을 균일하게 만드는 방법, 일반화에 도움
미리 정규화된 데이터 샘플: Conv층에서 출력되는 데이터가 동일한 분포를 가질것이라고 예상하기 어려움
배치정규화(BatchNormalization): 훈련하는 동안 평균과 분산이 바뀌더라도 이에 적응하여 데이터를 정규화 → 현재 배치 데이터의 평균과 분산을 사용
효과: 매우 깊은 네트워크에서 그레이디언트의 전파를 도움
배치정규화의 사용
- 편향 벡터를 사용하지 않음
  - 이유: 정규화 단계는 출력의 평균을 0에 맞추기 때문
  - layers.Conv2D(32,3,use_bias=False)(x)
- 활성화 함수 이전에 배치 정규화를 함
  x = layers.Conv2D(32, 3, use_bias=False)(x)
  x = layers.BatchNormalization()(x)
  x = layers.Activation("relu")(x)
- 추론 시: 훈련에서 사용한 평균과 분산의 지수 이동 평균 사용

깊이별 분리 합성곱

깊이별 분리 합성곱(depthwise separable convolution):
- 케라스에서 SeparableConv2D
- 입력채널별로 따로 공간방향의 합성곱을 연산 → 점별 합성곱(pointwise convolution)(1x1합성곱)을 통해 출력채널을 합침
- 공간상의 위치는 높은 상관관계를 가지고, 채널간은 독립적
- ex: 3x3 윈도우, 입력채널 64개, 출력채널 64개의 경우
  - 일반 합성곱: $3*3*64*64=36,864$
  - 깊이별 분리 합성곱: $(3*3*64)+(64*64)=4,672$

훨씬 적은 개수의 파라미터 사용, 더 적은 수의 연산 수행
수렴이 빠리고 쉽게 과대 적합 되지 않음

아키텍처 원칙정리

모듈화(블록): 일반적으로 여러개의 합성곱, 최대풀링층
피라미드계층(좁고 깊은 아키텍처): 특성맵의 공간 방향크기 ↓, 필터 개수 ↑
블록에 잔차연결을 추가/합성곱 층 다음에 배치정규화 추가 시 깊은 네트워크에 도움
파라미터 효율이 좋은 SeparableConv2D층이 도움될 수 있음

Xception 유사모델

아키텍처의 원칙을 잘 반영한 Xception의 유사모델을 코드화

inputs = keras.Input(shape=(180, 180, 3))
x = data_augmentation(inputs)
 
x = layers.Rescaling(1./255)(x)
x = layers.Conv2D(filters=32, kernel_size=5, use_bias=False)(x)
 
for size in [32, 64, 128, 256, 512]:
    residual = x
 
    x = layers.BatchNormalization()(x)
    x = layers.Activation("relu")(x)
    x = layers.SeparableConv2D(size, 3, padding="same", use_bias=False)(x)
  
    x = layers.BatchNormalization()(x)
    x = layers.Activation("relu")(x)
    x = layers.SeparableConv2D(size, 3, padding="same", use_bias=False)(x)
  
    x = layers.MaxPooling2D(3, strides=2, padding="same")(x)
  
    residual = layers.Conv2D(
        size, 1, strides=2, padding="same", use_bias=False)(residual)
    x = layers.add([x, residual])
  
x = layers.GlobalAveragePooling2D()(x)
x = layers.Dropout(0.5)(x)
outputs = layers.Dense(1, activation="sigmoid")(x)
model = keras.Model(inputs=inputs, outputs=outputs)

cat vs dog 데이터 적용시: 90.8% 정확도 달성

주지윤

이전 포스트

딥러닝_CNN_합성곱연산(Convnet)_3. 이미지 분할

다음 포스트

딥러닝_CNN_합성곱연산(Convnet)_4. 최신 컨브넷 아키텍처 패턴

딥러닝

최신 컨브넷 아키텍처 패턴

아키텍처(architecture)

잔차연결(residual connection)

배치 정규화(batch normalization)

깊이별 분리 합성곱

아키텍처 원칙정리

Xception 유사모델

딥러닝_CNN_합성곱연산(Convnet)_3. 이미지 분할

딥러닝_CNN_합성곱연산(Convnet)_5. 사전 훈련된 모델 소개

0개의 댓글