GANs 5 - Keras,PyTorch DCGAN with MNIST

# To generate GIFs
!pip install imageio
!pip install git+https://github.com/tensorflow/docs

import tensorflow as tf

import glob
import imageio
import matplotlib.pyplot as plt
import numpy as np
import os
import PIL
from tensorflow.keras import layers
import time

from IPython import display

기본적으로 라이브러리를 다운로드하고 호출해준다.

2. Load and prepare the dataset

# Download MNIST
(train_images, train_labels), (_, _) = tf.keras.datasets.mnist.load_data()

# Reshape and Normalize
train_images = train_images.reshape(train_images.shape[0], 28, 28, 1).astype('float32')
train_images = (train_images - 127.5) / 127.5  # Normalize the images to [-1, 1]

# Set Batch and Buffer Size
BUFFER_SIZE = 60000
BATCH_SIZE = 256

# Batch and shuffle the data
train_dataset = tf.data.Dataset.from_tensor_slices(train_images).shuffle(BUFFER_SIZE).batch(BATCH_SIZE)

버퍼사이즈 60000,

버퍼사이즈는 데이터셋을 섞기(셔플) 위한 버퍼 크기이며, 크기가 클 수록 데이터셋이 더 무작위로 분포 되어 모델의 학습 성능이 향상될 수 있지만, 너무 크면 메모리를 많이 사용한다.

배치사이즈 256

배치사이즈는 훈련할때 사용할 배치의 크기로, 모델이 한 번에 처리하는 데이터의 양을 의미한다.

클수록 훈련속도가 빠르며 학습이 더 안정적일수 있지만, 메모리 사용량이 많아진다.

작다면 훈련시간이 길고, 모델이 더 자주 업데이트되므로 훈련이 불안정해질수 있다.

예시 비교

BUFFER_SIZE 1000, BATCH_SIZE 32:

데이터셋이 덜 섞여 있을 가능성이 있으며, 배치 크기가 작아 메모리 사용은 적지만 훈련 시간이 길어질 수 있습니다.

BUFFER_SIZE 60000, BATCH_SIZE 256:

데이터셋이 잘 섞여 있어 모델이 더 잘 학습할 수 있습니다. 배치 크기가 적당하여 메모리 사용과 훈련 시간의 균형이 맞을 수 있습니다.

BUFFER_SIZE 60000, BATCH_SIZE 1024:

데이터셋이 잘 섞여 있으나, 배치 크기가 너무 커서 메모리 사용이 많아질 수 있습니다. 훈련 속도는 빨라질 수 있지만, 메모리 제한에 부딪힐 수 있습니다.

3. Define our Generator Model

모델 아키텍쳐:
생성자 모델은 입력 노이즈 벡터(100 차원)를 받아 점진적으로 업샘플링하여 28x28 크기의 이미지를 생성

각 레이어는 BatchNormalization과 LeakyReLU를 통해 학습을 안정화하고 비선형성을 추가

여기에 해당하는 부분으로

DCGAN의 전형적인 구조로, 노이즈 벡터를 입력받아 점진적으로 고해상도 이미지를 생성

결과를 봤을때는 뭔지도 모를정도로 매우 좋지않다.

4. Define our Discriminator Model

모델 아키텍처:
판별자 모델은 Conv2D 레이어를 통해 입력 이미지의 특징을 추출하고, LeakyReLU 활성화 함수와 Dropout을 사용하여 학습의 안정성을 높인다.

Flatten 레이어를 통해 2D 이미지를 1D 벡터로 변환하고, Dense 레이어를 통해 단일 출력 노드를 사용하여 이진 분류를 수행

출력된 값 -0.00311581은 생성자가 생성한 이미지가 가짜임을 판별자가 인식했음을 나타낸다.

0에 가까울수록 가짜일 확률이 높다.

이 값은 생성자가 아직 훈련되지 않은 상태이므로, 생성된 이미지가 현실적이지 않음을 의미

손실 및 정규화 처리

loss, 정규화, checkpoints를 정의하고

학습을 진행한다.

EPOCHS = 50
noise_dim = 100
num_examples_to_generate = 16

학습은 에포크 50,
노이즈 벡터 100차원의 랜덤 벡터
한번에 생성할 이미지 예제의 수 16

학습을 하고 이미지를 저장.

학습 과정들을 전부 저장해서, GIF로 만들어서 출력

50의 에포크 동안, 16개의 이미지를 생성했고, 점점 개선되는 모습을 확인할 수 있다.

PyTorch 실습

PyTorch도 Keras와 비슷하다

모델 정의:

Discriminator 모델:
이미지를 입력으로 받아 진짜인지 가짜인지 판별하는 모델
여러 층의 Fully Connected Layer로 구성
최종 출력은 이진 분류를 위한 단일 노드
Generator 모델:
랜덤 노이즈 벡터를 입력으로 받아 이미지를 생성하는 모델
입력 노이즈 벡터의 크기는 100이며, 최종 출력은 28x28 크기의 이미지