딥러닝 파라미터 수 이해하기: Linear와 Conv로 예시로 설명

Bean·2025년 6월 30일

AI기초 Bias Convlayer LinearLayer PyTorch weight 딥러닝 딥러닝공부 모델설계 파라미터계산

인공지능

목록 보기

70/123

딥러닝 파라미터 수, 어떻게 계산할까?

── Linear & Conv 레이어로 배우는 weight와 bias의 모든 것

딥러닝 모델을 설계하거나 논문을 읽다 보면 자주 등장하는 지표가 바로 "파라미터 수(parameter count)"입니다. 하지만 이 수치가 무엇을 의미하는지, 또는 어떻게 계산되는지 헷갈리는 분들이 많습니다.

이 글에서는 Linear(선형) 레이어와 Convolution(합성곱) 레이어를 중심으로, weight와 bias가 어떻게 구성되고 파라미터 수가 어떻게 계산되는지 직관적인 예제와 코드로 쉽게 설명해드릴게요.

1. 파라미터란 무엇인가요?

딥러닝 모델의 파라미터 수란?
각 레이어의 weight + bias를 모두 합한 값입니다.

이 파라미터들은 학습을 통해 조정되며, 모델이 데이터를 이해하고 일반화하는 능력과 직접적으로 관련되어 있습니다.

2. Linear Layer (완전 연결층)의 파라미터 계산

📌 기본 공식

총 파라미터 수 = (입력 노드 수 × 출력 노드 수) + 출력 노드 수

📌 직관적 예제

🎯 설정

입력 차원(in_features) = 4
출력 차원(out_features) = 3
입력 벡터 x = [x1, x2, x3, x4]
출력 벡터 y = [y1, y2, y3]

🧮 weight 행렬 W

shape: (3, 4) → 출력 3개, 입력 4개
각 출력 뉴런(y1, y2, y3)은 입력값 4개에 각각 가중치가 있음
총 weight 개수 = 3 × 4 = 12개

➕ bias 벡터 b

shape: (3,) → 출력 뉴런마다 하나씩
총 bias 개수 = 3개

💡 수식으로 표현하면:

\begin{aligned} y_1 &= w_{11} x_1 + w_{12} x_2 + w_{13} x_3 + w_{14} x_4 + b_1 \\ y_2 &= w_{21} x_1 + w_{22} x_2 + w_{23} x_3 + w_{24} x_4 + b_2 \\ y_3 &= w_{31} x_1 + w_{32} x_2 + w_{33} x_3 + w_{34} x_4 + b_3 \end{aligned}

✅ 최종 정리:

weight: 12개
bias: 3개
→ 총 파라미터 수 = 15개

🧪 PyTorch로 확인해보기

import torch
import torch.nn as nn

layer = nn.Linear(4, 3)  # in_features=4, out_features=3
print("weight shape:", layer.weight.shape)  # torch.Size([3, 4])
print("bias shape:", layer.bias.shape)      # torch.Size([3])

출력 결과:

weight shape: torch.Size([3, 4])
bias shape: torch.Size([3])

2. Convolution Layer (합성곱층)의 파라미터 계산

📌 공식

총 파라미터 수 = (커널 너비 × 커널 높이 × 입력 채널 수 × 출력 채널 수) + 출력 채널 수

📐 예시

커널 크기 = 3 × 3
입력 채널 수 = 3
출력 채널 수 = 16

→ weight shape: (16, 3, 3, 3)
→ weight 개수 = 16 × 3 × 3 × 3 = 432
→ bias 개수 = 16

▶️ 총 파라미터 수 = 432 + 16 = 448개

✅ 요약 정리

레이어 유형	Weight 수 계산	Bias 수 계산
Linear Layer	`in_features × out_features`	`out_features`
Convolution Layer	`kernel_h × kernel_w × in_ch × out_ch`	`out_channels`

▶️ 총 파라미터 수 = 모든 weight + bias

3. 마무리

딥러닝 모델의 성능이나 복잡도를 이해하려면 "파라미터 수"의 개념은 반드시 짚고 넘어가야 합니다.
이번 글에서 설명한 weight와 bias의 차이, 레이어별 파라미터 계산 공식, 그리고 직접 코드로 확인하는 방법을 숙지하면, 모델 설계와 디버깅 시 더 깊은 통찰을 가질 수 있어요.

Bean

AI developer

이전 포스트

딥러닝 속도·메모리 최적화의 핵심! Automatic Mixed Precision(AMP) 정리

다음 포스트