[Math] 수학기호 & 연산의 공학적 해석

JAsmine_log·2025년 8월 19일
0

수학 연산자의 공학적 해석

📘 기본 연산

➕ 덧셈 (+)

  • 역할: 값을 합침

  • 공학적 해석:

    • 여러 신호를 더할 때 → 합성 신호
    • 확률에서 사건이 독립적이지 않을 때 → 확률 누적
    • ML에서는 여러 가중합(weighted sum) = 뉴런의 입력

➖ 뺄셈 (−)

  • 역할: 차이를 구함

  • 공학적 해석:

    • 오차(Error) 계산 → 예측값정답\text{예측값} - \text{정답}
    • 물리적 해석 → 위치 차이, 속도 차이
    • 제어공학 → 목표값과 현재값의 차이(feedback error)

✖ 곱셈 (×)

  • 역할: 크기를 조절하거나 상호작용을 만듦

  • 공학적 해석:

    • 스케일링(scaling): 신호를 키우거나 줄임
    • 확률에서 독립 사건 결합: P(AB)=P(A)P(B)P(A \cap B) = P(A)P(B) (독립일 때)
    • 딥러닝에서 가중치 × 입력 = 특징 강화

➗ 나눗셈 (÷)

  • 역할: 비율, 정규화.

  • 공학적 해석:

    • 신호를 일정 크기로 나눠서 안정화(normalization)
    • 확률 분포 만들 때: xijxj\frac{x_i}{\sum_j x_j}
    • 제어에서 gain 조절

📘 함수 연산

📈 지수 함수 (exp, exe^x)

  • 역할: 빠른 성장, 양수화.

  • 공학적 해석:

    • Softmax에서 점수 차이를 강조 → 확률화
    • 물리에서 자연현상(방사능 붕괴, 캐패시터 충방전) 모델링
    • 신호처리에서 지수 감쇠, 진동 표현

📉 로그 함수 (log)

  • 역할: 지수의 반대, 큰 값을 압축.

  • 공학적 해석:

    • Loss function: 확률이 1이면 log=0 (완벽 예측), 확률이 0이면 log=-∞ (나쁜 예측)
    • 데이터 스케일링: 큰 수를 다루기 쉽게 변환
    • 정보이론: logP(x)-\log P(x) = 정보량 (Information Content)

⬜ 제곱 (square, x2x^2)

  • 역할: 부호 제거 + 크기 강조.

  • 공학적 해석:

    • Error를 양수화: (예측정답)2(예측 - 정답)^2
    • 물리량에서 에너지(속도의 제곱 = 운동에너지)
    • 회귀 모델의 대표적 loss → MSE(Mean Squared Error)

√ 제곱근 (square root, x\sqrt{x})

  • 역할: 크기를 원래 단위로 복원.

  • 공학적 해석:

    • RMS(root mean square): 신호의 평균 세기를 실제 단위로 표현
    • 분산의 제곱근 = 표준편차 (확률 통계에서 변동성 지표)

📘 통계·확률 관련

  • Σ (시그마, 합)

    i=1nxi\sum_{i=1}^n x_i

    → 여러 신호/데이터를 더해서 평균, 분산 등 구함.
    → ML에서는 Loss 전체를 데이터셋 평균으로 표현할 때 필수.

  • Π (파이, 곱)

    i=1nP(xi)\prod_{i=1}^n P(x_i)

    → 독립 확률의 결합 (joint probability).
    → 베이지안 모델에서 likelihood 계산.

  • E[X] (기댓값)

    E[X]=xxP(x)E[X] = \sum_x x \cdot P(x)

    → 확률변수의 평균적 행동.
    → 공학적으로 "신호의 평균 에너지" 같은 개념.

  • Var(X), σ² (분산)

    Var(X)=E[(XE[X])2]Var(X) = E[(X - E[X])^2]

    → 불확실성/변동성 측정.
    → 센서 데이터 노이즈, 신호 안정성 평가.

  • ∼ (분포 따름)

    XN(μ,σ2)X \sim \mathcal{N}(\mu, \sigma^2)

    → 확률변수 X가 정규분포를 따른다.
    → 딥러닝 초기화, 베이지안 추론 등에서 필수.


📘 미적분 기호

  • d/dx (미분)

    ddxf(x)\frac{d}{dx} f(x)

    → 변화율(속도, 기울기).
    → Gradient Descent = 오차를 줄이기 위해 기울기 방향으로 이동.

  • ∂/∂x (편미분)

    xf(x,y)\frac{\partial}{\partial x} f(x,y)

    → 여러 변수 중 하나만 변화시켰을 때의 변화율.
    → 다변수 함수(딥러닝 Loss 함수)에 반드시 등장.

  • ∫ (적분)

    f(x)dx\int f(x) dx

    → 넓이, 누적량.
    → 신호 처리에서 총 에너지, 물리에서 일(work).
    → 연속 확률 분포의 전체 확률=1 을 보장

  • ∇ (그래디언트)

    f=(fx,fy,)\nabla f = \left(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}, \dots \right)

    → 여러 방향의 변화율 모은 벡터.
    → 딥러닝 학습에서 gradient = 핵심.

  • Δ (델타, 변화량)

    Δx=xnewxold\Delta x = x_{new} - x_{old}

    → 값의 차이, step 크기.
    → 뉴턴법, 최적화, 제어이론에서 step update에 사용.


📘 선형대수 기호

  • ‖x‖ (노름, Norm)

    x2=ixi2\|x\|_2 = \sqrt{\sum_i x_i^2}

    → 벡터의 길이.
    → 공학에서 거리, 에너지 측정.
    → L1 norm (맨해튼 거리), L2 norm (유클리드 거리)

  • ⟨x, y⟩ (내적, Inner product)

    x,y=ixiyi\langle x, y \rangle = \sum_i x_i y_i

    → 유사도(similarity).
    → 임베딩 모델에서 코사인 유사도와 직접 연결.

  • ⊗ (텐서곱, Kronecker product)
    → 신호 결합, 고차원 표현.
    → 이미지 처리, 양자컴퓨팅, 딥러닝 attention 구조에서 쓰임.
    → 실제 딥러닝에서 Kronecker product 자체는 자주 안 쓰이는데,
    notation은 “텐서 연산”을 광범위하게 가리킬 때도 사용

예: CNN, Transformer의 고차원 연산.

  • A⁻¹ (역행렬)
    → “되돌리는 연산”.
    → 제어공학에서 시스템 역변환, 통계에서 공분산 역행렬.

  • det(A) (행렬식)
    → 행렬이 뒤집힐 수 있는지(가역성).
    → 물리에서 부피 스케일 변화율.

  • Tr(A) (트레이스)
    → 대각 원소 합.
    → 선형시스템 안정성, ML 최적화 정규화 항에 등장.
    → 정규화 항” 외에도,
    → ㅠ특이값/고유값 합 = 선형 시스템의 총 variance 라는 해석도 많이 씀.


📘 특수 기호들

  • ≈ (근사) → 실제 계산에서는 딱 맞추기 힘드니까 “거의 같다”.
  • ∝ (비례) → 정규화 상수 빼고 같은 꼴. (예: 확률밀도함수 정의 전)
  • → (수렴) → 어떤 값에 점점 가까워짐. (최적화, iterative algorithm)
  • ∞ (무한대) → 끝없는 성장, 확률적 극한.
  • ⊂, ⊆ (부분집합) → 집합 관계. 데이터셋, 사건 관계 표현.
  • ∪, ∩ (합집합, 교집합) → 여러 사건 조합.

📘 공학적 종합 해석

  • 덧셈/뺄셈 → 차이, 합성, 오차
  • 곱셈/나눗셈 → 비율, 강화, 정규화
  • exp/log → 확률·성장·스케일링 조절
  • square/sqrt → 에너지·분산·거리
  • Σ, ∫, ∇ → 누적, 변화율, 학습
  • ‖·‖, ⟨·,·⟩ → 거리와 유사도
  • ∝, ≈, ∞ → 현실적 근사, 수렴 표현

=> 현실 세계(신호·데이터·물리)를 수학적으로 안정적이고 구조 있게 표현하는 언어라고 볼 수 있음. 공학에서 +, -, ×, ÷, log, exp, square 같은 연산은 신호/확률/오차를 안정적이고 의미 있는 값으로 바꿔주는 변환 도구.


예시: 딥러닝 Loss 함수

  • Cross Entropy Loss: -log P(y)
    → 확률이 높을수록 loss 작아짐 (정답 강화)
  • MSE Loss: (y_pred - y_true)^2
    → 오차의 크기를 에너지처럼 평가
  • Softmax: exp(x) / sum(exp(x))
    → 점수를 확률 분포로 변환

정리 표

기호공학적 의미ML/DL 활용 예시
+ (덧셈)신호/값 합성뉴런 입력 = 가중합 wx+bw \cdot x + b
− (뺄셈)차이, 오차 계산예측값 − 정답 = error
× (곱셈)스케일링, 상호작용가중치 × 입력, 확률 곱 (joint prob.)
÷ (나눗셈)비율, 정규화Softmax: eziezj\frac{e^{z_i}}{\sum e^{z_j}}
exp (exe^x)양수화, 급성장/감쇠Softmax, 확률 모델 (logit → 확률)
log스케일 압축, 정보량Cross-Entropy Loss: logP(y)-\log P(y)
x² (제곱)에너지, 부호 제거MSE Loss, L2 norm
√ (제곱근)원래 단위 복원표준편차, RMS 에너지
Σ (시그마)합, 누적데이터셋 Loss 평균, 분산 계산
Π (파이)곱, 결합베이지안 likelihood: P(xi)\prod P(x_i)
E[X]기댓값 (평균)손실 함수 기대값, Monte Carlo 추정
Var(X), σ²분산 (불확실성)모델 불확실성, 분산 감소 학습
분포 따름XN(μ,σ2)X \sim \mathcal{N}(\mu,\sigma^2), 가우시안 노이즈
d/dx (미분)순간 변화율Gradient Descent 학습
∂/∂x (편미분)다변수 변화율Backpropagation (연쇄법칙)
∫ (적분)누적, 면적확률분포 정규화, 연속 신호 에너지
∇ (그래디언트)변화율 벡터Loss의 gradient = 학습 신호
Δ (델타)변화량Update step: Δw=ηL\Delta w = -\eta \nabla L
‖x‖ (노름)벡터 크기, 거리L1/L2 정규화, 임베딩 거리
⟨x,y⟩ (내적)유사도코사인 유사도, attention score
⊗ (텐서곱)고차원 결합이미지 처리, multi-head attention
A⁻¹ (역행렬)역변환선형시스템 해, 공분산 역행렬
det(A)행렬식 = 부피/가역성Jacobian 정규화, 변환 안정성
Tr(A)대각합정규화 항 (예: Tr(WᵀW))
≈ (근사)실제값 대신 가까운 값수치해석, 근사 알고리즘
∝ (비례)정규화 전 형태확률분포 P(x)eE(x)P(x) ∝ e^{-E(x)}
→ (수렴)값에 가까워짐iterative 알고리즘 수렴
∞ (무한대)극한, 무한soft constraint, limit behavior
∪, ∩ (합·교집합)집합 조합데이터셋 분할, 사건 조합
profile
Everyday Research & Development

0개의 댓글