[📜|DL] CNN의 조상, LeNet-5는 왜 이상할까? (문제의 Conv3 구현)

minseok128·2024년 11월 10일

지금으로부터 무려 27년 전 탄생한 고대의 인공지능.
1998년에 제시된 합성곱신경망(CNN)의 조상 LeNet-5를 구현해보자
특히 논문 속 문제의 CONV3 레이어까지...!

Hello CNN!

위의 연표를 보면 알겠지만, LeNet-5는 인공지능과 CNN이라는 개념이 주류로서 유행하기 전에 제시되어, 현대 CNN 모델들의 기초를 닦은 초기의 딥러닝 모델이다.
1998년에 Yann LeCun이 개발한 LeNet-5는 주로 손글씨 숫자 인식을 위해 설계되었으며, 이후 컴퓨터 비전의 패러다임을 바꾸는 데 큰 역할을 했다.
당시 분류 문제를 해결하는 알고리즘은 사람이 직접 데이터에서 특징을 추출해 학습하는 것이 주류였으나, LeNet-5는 가중치를 갖는 필터 자체를 학습시켜 이를 자동화해 혁신적인 접근을 시도하였다.

LeNet-5의 계층 구조는 현대의 모델에 비해 매우 단순하다. 따라서 나를 포함한 많은 CNN 초심자들이 처음으로 접하게 되는 제대로된 CNN 모델이다.

요즘 CNN과 다르게 근본 넘치는 구조.
이 구조만으로도 0~9의 손글씨를 99% 이상의 정확도로 예측할 수 있다.

혼란스러운 LeNet-5의 Conv3

그러나 LeNet-5를 조금만 깊게 찾아보고 공부하게 되면, 요상한 레이어 하나가 우리의 이해를 방해한다.
CONV3 계층은 LeNet-5의 구조에서 가장 독특한 부분이고 현대 CNN에서도 거의 찾아볼 수 없는 구조를 갖고 있다.

보통의...

일반적인 합성곱 계층은 다음과 같다.
그림에서 볼 수 있듯, 1채널의 인풋이 6개의 커널에 각각 연산되어 새로운 6개의 아웃풋을 만들어낸다.
이때, 각 필터는 모두 동일한 인풋을 전부 받아들이고, 합성곱 연산을 수행하게 된다.

따라서 계층은 전체적인 대칭 연결을 유지하게 된다.

우리 금쪽이...

그러나, LeNet-5의 Conv3 계층은 입력과 출력 사이에 비대칭 연결 방식을 채택하고 있다.
이 연결 방식은 현대 CNN에서 일반적인 완전 연결 방식이 아닌, 다양한 필터 연결을 통해 서로 다른 조합의 입력을 학습하게 하도록 고안된 것이다.
CONV3 계층은 6개의 입력을 16개의 출력으로 비대칭적으로 연결하여 필터가 다른 정보를 추출하게끔 설계되어있다.
아래 그림을 보면 알 수 있듯, 0번 인풋은 두번째, 세번째 필터의 인풋으로 사용되지 않는다.

논문에서 제시한 규칙은 다음의 표와 같다.
예시로 0번 필터는 오직 0, 1, 2번의 인풋만을 취급하며, 따라서 필터의 채널도 3이 될 것이다.
14번 필터는 0, 2, 3, 5번의 인풋만을 받아들이고 필터의 채널도 4가 될 것이다.

14개의 채널은 다양한 깊이를 갖지만, 결국 모든 필터의 결과물은 동일한 크기가 된다.
따라서 이들은 무사히 다음 레이어로 전해질 수 있다.

이론 자체는 천천히 따라가면 이해하기 쉽다.
그러나 호기롭게 LeNet-5 구현을 도전하는 많은 이들이 난감함을 느낀다.
대부분의 경우 이 부분을 무시하거나 포기하고 일반적인 합성곱 레이어와 동일하게 다음과 같이 퉁치고 넘어간다.

self.conv3 = nn.Conv2d(in_channels=6, out_channels=16, kernel_size=5, stride=1)

그러나 논문 상에서도 해당 레이어를 설명하는데 많은 시간을 할애하고 있는만큼, 이를 꼭 구현해보고 싶다는 생각이 들었다.

pytourch로 구현하기

이를 직접 구현하기에 앞서, 해당 레이어를 논문과 완벽히 동일한 코드가 인터넷 상에 존재하는지 찾아보았다.
블로그는 찾지 못했고, tensorflow로 구현한 한 대학원생 분의 영상을 찾게 되었다.

유일하게 찾은 제대로 구현한 LeNet-5 설명 영상

아쉬운 것은 시대가 조금은 변하여 학습용으로 주로 pytourch를 활용한다는 것이었다. 그렇지만, 구현의 힌트를 얻을 수 있었다.

다음은 pytourch로 구현한 제대로된 Conv3 레이어이다.

# Conv3 layer의 Rules 정의
CONV3_RULES = [
    [0, 1, 2], [1, 2, 3], [2, 3, 4],
    [3, 4, 5], [0, 4, 5] , [0, 1, 5],
    [0, 1, 2, 3], [1, 2, 3, 4], [2, 3, 4, 5],
    [0, 3, 4, 5], [0, 1, 4, 5], [0, 1, 2, 5],
    [0, 1, 3, 4], [1, 2, 4, 5], [0, 2, 3, 5],
    [0, 1, 2, 3, 4, 5],
]

# Conv3 Layer 구현
class ReNet5Conv3(nn.Module):
    def __init__(self):
        super(ReNet5Conv3, self).__init__()
        self.conv_layers = nn.ModuleList(
            [
                nn.Conv2d(
                    in_channels=len(rules), out_channels=1, kernel_size=5, stride=1
                )
                for rules in CONV3_RULES
            ]
        )

    def forward(self, x):
        conv3_results = []
        for i, rule in enumerate(CONV3_RULES):
            selected_inputs = torch.cat(
                [x[:, idx : idx + 1, :, :] for idx in rule], dim=1
            )
            conv3_results.append(self.conv_layers[i](selected_inputs))
        return torch.cat(conv3_results, dim=1)

해당 모듈을 포함하여 전체 LeNet-5를 정의하면 다음과 같다.
(LeNet-5의 논문을 보면 알겠지만, pooling layer에도 학습 가능한 파라미터가 있다.)

# 학습 가능한 파라미터를 가지는 SubSampling Layer 구현
class LearnableSubsampling2d(nn.Module):
    def __init__(self, kernel_size, stride=None, num_channels=1):
        super(LearnableSubsampling2d, self).__init__()
        self.kernel_size = kernel_size
        self.stride = stride if stride is not None else kernel_size
        self.weights = nn.Parameter(torch.ones(1, num_channels, 1, 1))
        self.bias = nn.Parameter(torch.zeros(1, num_channels, 1, 1))

    def forward(self, x):
        x = F.avg_pool2d(x, self.kernel_size, self.stride)
        x = x * self.weights + self.bias
        return x
        

# LeNet-5 논문과 최대한 유사하게 구현
class RealLeNet5(nn.Module):
    def __init__(self, num_classes):
        super(RealLeNet5, self).__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5, stride=1)
        self.pool2 = LearnableSubsampling2d(kernel_size=2, stride=2, num_channels=6)
        self.conv3 = ReNet5Conv3()
        self.pool4 = LearnableSubsampling2d(kernel_size=2, stride=2, num_channels=16)
        self.conv5 = nn.Conv2d(
            in_channels=16, out_channels=120, kernel_size=5, stride=1
        )
        self.fc6 = nn.Linear(120, 84)
        self.fc7 = nn.Linear(84, num_classes)

    def forward(self, x):
        x = F.tanh(self.conv1(x))
        x = self.pool2(x)
        x = F.tanh(self.conv3(x))
        x = self.pool4(x)
        x = F.tanh(self.conv5(x))
        x = x.view(x.size(0), -1)
        x = F.tanh(self.fc6(x))
        logits = self.fc7(x)
        return logits


torchinfo.summary(RealLeNet5(NUM_CLASSES), input_size=(1, 1, 32, 32))

	모델 요약과 학습 결과, 파라미터 수가 논문과 일치함

그럼 왜 이런 이상한 레이어를 설계했을까?

Conv3의 존재 의의에 대해 고민해 볼 기회가 있었고, 비전 연구실 교수님과 논의한 후 제 나름대로 결론을 정리해 보았다.

이렇게 비대칭 연결 방식을 통해 LeNet-5는 전체 네트워크의 대칭성을 깨고, 더 다양한 특징을 학습할 수 있도록 유도하고 있다. 현대 CNN에서는 이와 같은 기법을 잘 찾아볼 수 없지만, 드롭아웃(dropout)과 같은 정규화 기법이 이러한 특성과 맥을 같이한다고 볼 수 있다. 그러나 당시에는 드롭아웃과 같은 정규화 기법이 존재하지 않았다(이는 AlexNet에서 제시됨). 따라서, LeNet-5는 이런 비대칭 연결 방식으로 뉴런의 다양성을 유지하려 한 것으로 생각된다.

LeNet-5의 연구진들이 당시에 이런 비대칭 구조를 얼마나 세밀하게 설계했는지를 새삼 느낄 수 있었고, 드롭아웃이 아직도 널리 사용된다는 점에서 원칙을 깨는 단순한 아이디어의 강력함을 다시 한 번 실감했다.

끝!

minseok128

세계는 나의 표상

이전 포스트

[🥧|Py] 쌈뽕한 GUI <CustomTkinter> 튜토리얼 한국어 번역

다음 포스트

[🧱|CS] 알잘딱깔센 오타 고쳐주는 레벤슈타인 거리 알고리즘

1개의 댓글

김민경

2024년 11월 15일

오 유익한 내용 잘 보았습니다!
민키님 정리 실력이 장난 아니신데요
전에 머신러닝 수업 때 들었던 내용들이 언뜻 떠오르네요! 희미하게 언뜻...

답글 달기