[DL] PyTorch 정리

fragrance_0·2023년 11월 20일

DL

목록 보기

2/6

다양한 딥러닝 프레임워크가 존재하는데, 그 중에서도 가장 대표적인 PyTorch에 대해 알아보려고 한다.
냅다 딥러닝 학습을 시키고 프로젝트를 하다보면, 프레임워크를 그냥 임포트해서 쓰게 된다.
PyTorch에 대해서 더 알고 활용하고 싶다면 전체적인 흐름에 대해서 알고 있는 것이 좋다.

🍊 프레임워크: 작업을 효율적으로 할 수 있도록 짜놓은 틀

특정 작업을 도와줄 수 있는 라이브러리나 함수를 모아둔 집합체

PyTorch, Tensorlfow, Keras 등이 존재

최근 딥러닝 분야에서는 PyTorch의 비중이 높아지고 있음

📚 PYTORCH

과거 facebook에서 개발한 프레임워크
Tensor(텐서)라는 개념을 기반으로 함
Numpy(넘파이) 배열과 유사하지만, 딥러닝에 최적화된 다양한 기능을 제공
GPU 가속을 지원하여 더 빠른 연산 수행 가능

텐서를 GPU로 연산할 수 있도록 이동
.to(device)시키면 PyTorch가 자동으로 GPU에서 계산을 수행
Pytorch는 학습모델을 구축하고, 학습된 모델(Pre-trained Model)을 저장하거나 불러오기 편함
모델의 상태, 아키텍처 및 학습된 파라미터를 파일에 저장 가능

📎 넘파이

Numerical Python의 준말
연산에 최적화된 기능들을 지원하는 python의 라이브러리
리스트와 유사해보이는 Array를 지원하는데, 빠른 속도의 연산
배열 내에 여러 요소를 한번에 계산 가능

import numpy as np # 주로 축약어인 np로 불러옵니다.

arr = np.array([1, 2, 3, 4, 5])
print(arr + 1)
print(arr * 2)

>>> Output: [2 3 4 5 6]
>>> Output: [2 4 6 8 10]

⭐️ Tensor 연산

torch.tensor()

import torch

# Tensor 생성
x = torch.tensor([1, 2, 3])
y = torch.tensor([4, 5, 6])

# Tensor 연산 수행
z = x + y
print(z)

>>> tensor([5, 7, 9])

x와 y라는 두 개의 텐서를 생성
'+ 연산자를 사용하면 요소(Element)별로 더함
리스트끼리 더하면 [1, 2, 3, 4, 5, 6]의 결과
텐서끼리 더하면 [5, 7, 9]의 결과 생성 => 텐서연산

torch.zeros() | torch.ones()

# 0으로 채워진 모양이 (3, 4)인 텐서 생성
zeros_tensor = torch.zeros(3, 4)

>>> tensor([[0., 0., 0., 0.],
		    [0., 0., 0., 0.],
		    [0., 0., 0., 0.]])

# 1로 채워진 모양이 (2, 2, 2)인 텐서 생성
ones_tensor = torch.ones(2, 2, 2)

>>> tensor([[[1., 1.],
		         [1., 1.]],

		        [[1., 1.],
		         [1., 1.]]])

torch.matmul()

# 행렬 곱셈 수행
A = torch.tensor([[1, 2], [3, 4]])
B = torch.tensor([[5, 6], [7, 8]])
result = torch.matmul(A, B)

>>> tensor([[19, 22],
		    [43, 50]])

matmul은 행렬곱인 Matrix Multiplication의 줄임말임
+ 행렬곱은 원소간의 곱의 합으로 이루어짐
딥러닝 학습시 주로 A에는 입력값, B에는 가중치 행렬값이 주로 할당됨

⭐️ 신경망 모델

torch.cuda

Pytorch에서 GPU가속을 위한 함수를 제공함
텐서와 모델을 GPU로 이동시키면 GPU에서 계산을 수행할 수 있음
모델과 텐서 중 하나라도 GPU에 이동되지 않으면 오류가 발생할 수 있으니 주의


# CUDA 사용 가능 여부 확인
if torch.cuda.is_available():
    device = torch.device("cuda")
else:
  print("CUDA를 사용할 수 없습니다.")

x = torch.tensor([1, 2, 3]).to(device)  # 텐서를 GPU로 이동
y = torch.tensor([4, 5, 6]).to(device)  # 텐서를 GPU로 이동
z = x + y  # GPU에서 계산 수행
result = z  # 텐서를 다시 CPU로 이동

>>> tensor([5, 7, 9], device='cuda:0')

📎 CUDA
CUDA(Compute Unified Device Architecture)는 NVIDIA에서 개발한 병렬 컴퓨팅 플랫폼 및 프로그래밍 모델입니다. 이는 개발자들이 그래픽 처리 외에도 NVIDIA GPU(그래픽 처리 장치)의 성능을 활용하여 일반 목적의 컴퓨팅 작업을 수행할 수 있게 해줍니다.

torch.nn

-Pytorch에서는 nn.Module을 사용하여 간단한 신경망 모델 정의 가능

모델의 인스턴스를 생성하고, 그 구조를 출력함
__init__과 forward 구조 파악 중요

import torch
import torch.nn as nn

# 신경망 모델 정의
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        
        # 입력 크기가 10이고, 출력크기가 5인 하나의 완전 연결층
        self.fc = nn.Linear(10, 5) # Fully-Connected Layer
	
    # forward-> 순전파 연산
    def forward(self, x):
        x = self.fc(x)
        return x

# 모델의 인스턴스 생성
model = Net()

# 모델 구조 출력
input = torch.randn(1, 10)
output = model(input)

⭐️ 손실함수와 역전파

torch.nn.Loss() | loss.backward()

손실함수와 역전파를 구할 때, Pytorch의 장점이 두드러짐
다음과 같은 코드로 손실계산, 역전파 쉽게 구현 가능
손실함수를 MSE(평균제곱오차)로 정의: nn.MSELoss()
-> 입력 텐서와 타겟 텐서를 비교해 손실값 계산
loss.backward()로 역전파 수행
입력 텐서에 대한 손실의 기울기를 출력

import torch
import torch.nn as nn

# 무작위 입력과 타겟 텐서 생성
input = torch.randn(3, requires_grad=True)
target = torch.tensor([0.5, -1, 2])

# 손실 함수 정의
loss_fn = nn.MSELoss()

# 손실값 계산
loss = loss_fn(input, target)

# 역전파 수행
loss.backward()

# 기울기 출력
print(input.grad)

⭐️ 옵티마이저

torch.optim

import torch
import torch.nn as nn
import torch.optim as optim

# 무작위 모델과 입력 Tensor 생성
model = nn.Linear(5,1)
input = torch.randn(2, 5)

# 옵티마이저 정의 -> SGD(확률적 경사하강법)으로 정의
optimizer = optim.SGD(model.parameters(), lr=0.1)

# 기울기 초기화
optimizer.zero_grad()

# 순전파
output = model(input)

# 손실 계산
loss = output.mean()

# 역전파
loss.backward()

# 모델 파라미터 업데이트
optimizer.step()

# 업데이트된 파라미터 출력
print(model.weight)

SGD: Stochastic Gradient Descent, 확률적 경사 하강법
optimizer.zero_grad(): 기울기 초기화
Ir: Learning Rate, 학습률
입력 텐서를 모델에 통과시켜 순전파를 수행하고, 출력의 평균을 손실함수로 계산
loss.backward()와 optimizer.step()를 실행하여 역전파와 파라미터 업데이트를 수행

⭐️ 모델 저장과 불러오기

매번 새롭게 모델을 학습시키는 것이 아닌, 학습이 완료된 모델을 저장
torch.save()를 사용하여 쉽게 저장 => .pt 또는 .pth 확장자로 저장
torch.load()를 사용하여 저장된 모델을 불러옴
model.load_state_dict()를 사용해 model변수에 기존 가중치 값 할당

torch.save() | torch.load()

import torch
import torch.nn as nn

# 간단한 모델 정의 => 위에서 정의한 신경망 모델과 구조가 동일
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc = nn.Linear(10, 5)

    def forward(self, x):
        x = self.fc(x)
        return x

# 모델 인스턴스 생성
model = Net()

# 모델 상태 저장
torch.save(model.state_dict(), 'model.pth')

# 모델 상태 불러오기
model.load_state_dict(torch.load('model.pth'))

# 불러온 모델을 사용하여 추론 수행
input = torch.randn(1, 10)
output = model(input)
print(output)

[출처 | 딥다이브 Code.zip 매거진]

fragrance_0

@fragrance_0의 개발로그

이전 포스트

[DL] 딥러닝

다음 포스트