[ PT Lecture Review ] Neural Networks, Backpropagation

BINGยท2024๋…„ 8์›” 7์ผ

[ ๊ฐœ๋… ์ •๋ฆฌ ML/DL ]

๋ชฉ๋ก ๋ณด๊ธฐ
2/8
post-thumbnail

๐Ÿ’ก [ ์š”์•ฝ ] :

  • ์—ญ์ „ํŒŒ๋Š” ์†์‹ค ํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ, ์ด๋ฅผ ์ด์šฉํ•ด ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ณผ์ •
  • ์ด๋•Œ, ๊ฐ ๊ณ„์ธต์˜ ์ถœ๋ ฅ์ด ๋‹ค์Œ ๊ณ„์ธต์˜ ์ž…๋ ฅ์ด ๋˜๋ฏ€๋กœ, ๊ฐ ๊ณ„์ธต์˜ ๋ฏธ๋ถ„์„ ์ฒด์ธ ๋ฃฐ์„ ํ†ตํ•ด ์—ฐ๊ฒฐํ•ด์•ผ ํ•จ
  • ์—ญ์ „ํŒŒ ๊ณผ์ •์—์„œ ๊ฐ ๋…ธ๋“œ๋Š” ์ƒ๋ฅ˜ ๊ทธ๋ž˜๋””์–ธํŠธ(์ถœ๋ ฅ ์ชฝ์—์„œ ์ „๋‹ฌ๋จ)๋ฅผ ๋ฐ›์•„ ๋กœ์ปฌ ๊ทธ๋ž˜๋””์–ธํŠธ์™€ ๊ณฑํ•˜์—ฌ ํ•˜๋ฅ˜ ๊ทธ๋ž˜๋””์–ธํŠธ(์ž…๋ ฅ ์ชฝ์œผ๋กœ ์ „๋‹ฌ๋จ)
  • ์ˆœ์ „ํŒŒ์—์„œ๋Š” ์ค‘๊ฐ„ ๊ฐ’์„ ๊ณ„์‚ฐ, ์—ญ์ „ํŒŒ์—์„œ๋Š” ๊ฐ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ์ฐจ๋ก€๋กœ ๊ณ„์‚ฐํ•˜๊ณ  ์ˆœ์ „ํŒŒ์˜ ๊ณ„์‚ฐ ์ˆœ์„œ๋ฅผ ๊ฑฐ๊พธ๋กœ ์ˆ˜ํ–‰

Linear Classifier์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ• 1: Feature Transforms

์ƒˆ๋กœ์šด ํŠน์ง• ๊ณต๊ฐ„์—์„œ ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•จ

์‹ ๊ฒฝ๋ง(Neural Networks)

ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŠน์ง• ๋ณ€ํ™˜(learnable feature transforms)์˜ ํŠน์ง•์„ ๊ฐ–๊ณ  ์žˆ์Œ
์‹ ๊ฒฝ๋ง์€ ๋ฐ์ดํ„ฐ์—์„œ ์ค‘์š”ํ•œ ํŠน์ง•์„ ์ž๋™์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ณ , ์ด๋Š” ๊ณ ์ •๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์•„๋‹Œ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ๋กœ์„œ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ์ตœ์ ํ™”๋จ

  • ๊ฒฐ๊ณผ: ์ตœ์ข…์ ์œผ๋กœ ์‹ ๊ฒฝ๋ง์€ ๊ฐ ํด๋ž˜์Šค์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋˜๋Š” ์ ์ˆ˜๋ฅผ ์‚ฐ์ถœํ•˜๋ฉฐ, ์ด๋Š” ์ด๋ฏธ์ง€๊ฐ€ ์–ด๋А ํด๋ž˜์Šค์— ์†ํ•˜๋Š”์ง€ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ
  • ํ›ˆ๋ จ ๊ณผ์ •: ์ด ๊ณผ์ •์—์„œ ์‹ ๊ฒฝ๋ง์€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์™€ ๋ชฉํ‘œ ์ถœ๋ ฅ(๋ ˆ์ด๋ธ”)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•˜๋ฉฐ, ์ •ํ™•ํ•œ ํŠน์ง• ์ถ”์ถœ๊ณผ ๋ถ„๋ฅ˜๋ฅผ ํ•™์Šต

1. ์‹ ๊ฒฝ๋ง์˜ ๊ตฌ์กฐ

  • ๋‰ด๋Ÿฐ(Neurons): ์‹ ๊ฒฝ๋ง์˜ ๊ธฐ๋ณธ ๋‹จ์œ„๋กœ, ๊ฐ ๋‰ด๋Ÿฐ์€ ์ž…๋ ฅ์„ ๋ฐ›๊ณ  ์ด๋ฅผ ์ฒ˜๋ฆฌํ•˜์—ฌ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค์Œ ๋‰ด๋Ÿฐ์— ์ „๋‹ฌํ•จ.
    • ์ž…๋ ฅ(Inputs): ๋‰ด๋Ÿฐ์œผ๋กœ ๋“ค์–ด์˜ค๋Š” ์‹ ํ˜ธ๋กœ, ์ฃผ๋กœ ์ด์ „ ์ธต์˜ ์ถœ๋ ฅ ์‹ ํ˜ธ์ž„.
    • ๊ฐ€์ค‘์น˜(Weights): ๊ฐ ์ž…๋ ฅ ์‹ ํ˜ธ์— ๊ณฑํ•ด์ง€๋Š” ๊ฐ’์œผ๋กœ, ์‹ ๊ฒฝ๋ง ํ•™์Šต์„ ํ†ตํ•ด ์ตœ์ ํ™”๋จ.
    • ํŽธํ–ฅ(Bias): ๋‰ด๋Ÿฐ์˜ ์ถœ๋ ฅ์— ๋”ํ•ด์ง€๋Š” ๊ฐ’์œผ๋กœ, ํ•™์Šต์„ ํ†ตํ•ด ์ตœ์ ํ™”๋จ.
    • ์ถœ๋ ฅ(Outputs): ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ๊ฑฐ์ณ ๋‚˜์˜จ ๊ฒฐ๊ณผ ๊ฐ’์œผ๋กœ, ๋‹ค์Œ ๋‰ด๋Ÿฐ์œผ๋กœ ์ „๋‹ฌ๋จ.
  • ์ธต(Layers): ์‹ ๊ฒฝ๋ง์€ ์ž…๋ ฅ์ธต, ์€๋‹‰์ธต, ์ถœ๋ ฅ์ธต์œผ๋กœ ๊ตฌ์„ฑ๋จ.
    - ์ž…๋ ฅ์ธต(Input Layer): ์ดˆ๊ธฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ›๋Š” ์ธต์ž„. ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๊ฐ€ ์ด ์ธต์œผ๋กœ ๋“ค์–ด์˜ด.
    - ์€๋‹‰์ธต(Hidden Layers): ์ž…๋ ฅ์ธต๊ณผ ์ถœ๋ ฅ์ธต ์‚ฌ์ด์˜ ์ธต์œผ๋กœ, ์ฃผ์š” ๊ณ„์‚ฐ์ด ์ˆ˜ํ–‰๋˜๋Š” ๊ณณ์ž„. ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์€๋‹‰์ธต์ด ์žˆ์„ ์ˆ˜ ์žˆ์Œ.
    - ์ถœ๋ ฅ์ธต(Output Layer): ์ตœ์ข… ๊ฒฐ๊ณผ๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ์ธต์ž„. ๋„คํŠธ์›Œํฌ์˜ ์˜ˆ์ธก ๊ฒฐ๊ณผ๊ฐ€ ์ด ์ธต์—์„œ ๋‚˜์˜ด.

2. ์‹ ๊ฒฝ๋ง์˜ ์ข…๋ฅ˜

  • ์ˆœ๋ฐฉํ–ฅ ์‹ ๊ฒฝ๋ง(Feedforward Neural Networks): ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ๋กœ, ๋…ธ๋“œ ๊ฐ„์˜ ์—ฐ๊ฒฐ์ด ์‚ฌ์ดํด์„ ํ˜•์„ฑํ•˜์ง€ ์•Š์Œ. ๋ฐ์ดํ„ฐ๋Š” ์ž…๋ ฅ์—์„œ ์ถœ๋ ฅ์œผ๋กœ ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™ํ•จ.
  • ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(CNN, Convolutional Neural Networks): ์ฃผ๋กœ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋ฉฐ, ํ•ฉ์„ฑ๊ณฑ ์ธต์„ ํ†ตํ•ด ์ž…๋ ฅ์„ ํ•„ํ„ฐ๋งํ•˜์—ฌ ํŠน์ง•์„ ์ถ”์ถœํ•จ.
    • ํ•ฉ์„ฑ๊ณฑ ์ธต(Convolutional Layer): ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ์ง€์—ญ์  ํŠน์ง•์„ ์ถ”์ถœํ•จ.
    • ํ’€๋ง ์ธต(Pooling Layer): ํ•ฉ์„ฑ๊ณฑ ์ธต์˜ ์ถœ๋ ฅ์„ ๋‹ค์šด์ƒ˜ํ”Œ๋งํ•˜์—ฌ ๊ณ„์‚ฐ๋Ÿ‰์„ ์ค„์ด๊ณ  ํŠน์ง•์˜ ์œ„์น˜ ๋ถˆ๋ณ€์„ฑ์„ ์œ ์ง€ํ•จ.
    • ์™„์ „ ์—ฐ๊ฒฐ ์ธต(Fully Connected Layer): ์ตœ์ข… ํŠน์ง•์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•จ.
  • ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง(RNN, Recurrent Neural Networks): ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ์— ์ ํ•ฉํ•˜๋ฉฐ, ์—ฐ๊ฒฐ์ด ์‚ฌ์ดํด์„ ํ˜•์„ฑํ•˜์—ฌ ์ •๋ณด๊ฐ€ ์ง€์†์ ์œผ๋กœ ์œ ์ง€๋  ์ˆ˜ ์žˆ์Œ.
    • ์ˆœํ™˜ ์—ฐ๊ฒฐ(Recurrent Connections): ์ด์ „ ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ์ถœ๋ ฅ์„ ํ˜„์žฌ ์ž…๋ ฅ์— ์ถ”๊ฐ€ํ•˜์—ฌ, ์‹œ๊ฐ„ ์ข…์†์„ฑ์„ ๋ชจ๋ธ๋งํ•จ.
    • LSTM(Long Short-Term Memory): ์žฅ๊ธฐ ์˜์กด์„ฑ์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์•ˆ๋œ RNN์˜ ๋ณ€ํ˜•์œผ๋กœ, ๋ง๊ฐ ๊ฒŒ์ดํŠธ, ์ž…๋ ฅ ๊ฒŒ์ดํŠธ, ์ถœ๋ ฅ ๊ฒŒ์ดํŠธ๋ฅผ ํ†ตํ•ด ์ •๋ณด์˜ ํ๋ฆ„์„ ์กฐ์ ˆํ•จ.
    • GRU(Gated Recurrent Unit): LSTM์˜ ๊ฐ„๋‹จํ•œ ๋ฒ„์ „์œผ๋กœ, ๋‘ ๊ฐœ์˜ ๊ฒŒ์ดํŠธ(์—…๋ฐ์ดํŠธ ๊ฒŒ์ดํŠธ, ๋ฆฌ์…‹ ๊ฒŒ์ดํŠธ)๋ฅผ ํ†ตํ•ด ์ •๋ณด์˜ ํ๋ฆ„์„ ์กฐ์ ˆํ•จ.

Linear Classifier์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ• 2:

๋„คํŠธ์›Œํฌ์˜ ์ถœ๋ ฅ์— ๋น„์„ ํ˜•์„ฑ์„ ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ, ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ

3. ํ™œ์„ฑํ™” ํ•จ์ˆ˜ (Activation Functions)

  • Q: What happens if we build a neural network with no activation function?

    • linear classifier ๋กœ ๋๋‚จ ์ฆ‰ ๋ฌธ์ œ์  ๊ทน๋ณต์„ ์œ„ํ•ด ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ํ•„์š”
  • ์ข…๋ฅ˜ ๋ฐ ํ˜•ํƒœ

  • ReLU (Rectified Linear Unit, ๋ ๋ฃจ): ์ž…๋ ฅ์ด ์–‘์ˆ˜์ผ ๊ฒฝ์šฐ ์ž…๋ ฅ์„ ๊ทธ๋Œ€๋กœ ์ถœ๋ ฅํ•˜๊ณ , ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด 0์„ ์ถœ๋ ฅํ•˜๋Š” ํ•จ์ˆ˜์ž„.

    • ์ˆ˜์‹:
      f(x)=max(0,x)
    • ์žฅ์ : ๊ณ„์‚ฐ์ด ๊ฐ„๋‹จํ•˜๊ณ , ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•จ.
    • ๋‹จ์ : ์Œ์ˆ˜ ์ž…๋ ฅ์— ๋Œ€ํ•ด ๋ชจ๋“  ์ถœ๋ ฅ์ด 0์ด ๋˜์–ด, ์ฃฝ์€ ReLU ๋ฌธ์ œ(dead ReLU problem)๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Œ.
  • Sigmoid (์‹œ๊ทธ๋ชจ์ด๋“œ): ์ถœ๋ ฅ์ด (0, 1) ์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ€์ง€๋ฉฐ, ์ด์ง„ ๋ถ„๋ฅ˜์— ์‚ฌ์šฉ๋จ.

    • ์žฅ์ : ์ถœ๋ ฅ์ด ํ™•๋ฅ ์ฒ˜๋Ÿผ ํ•ด์„๋  ์ˆ˜ ์žˆ์Œ.
    • ๋‹จ์ : ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ(vanishing gradient problem)๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Œ.
  • tanh (ํ•˜์ดํผ๋ณผ๋ฆญ ํƒ„์  ํŠธ): ์‹œ๊ทธ๋ชจ์ด๋“œ์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ ์ถœ๋ ฅ ๊ฐ’์ด -1์—์„œ 1 ์‚ฌ์ด์ž„.

    • ์ˆ˜์‹:
      f(x)=tanh(x)=
    • ์žฅ์ : ์‹œ๊ทธ๋ชจ์ด๋“œ๋ณด๋‹ค ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๊ฐ€ ๋œํ•จ.
    • ๋‹จ์ : ์—ฌ์ „ํžˆ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Œ.

5. Space Warping

  • ์‹ ๊ฒฝ๋ง์—์„œ ๋น„์„ ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํ˜•์ ์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋ถ„๋ฅ˜ ๋ฌธ์ œ๋ฅผ ์‰ฝ๊ฒŒ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ์ค‘์š”ํ•œ ๊ธฐ๋ฒ•
    • ์›๋ž˜ ๊ณต๊ฐ„์—์„œ ๋น„์„ ํ˜•์ ์œผ๋กœ ๋ถ„๋ฆฌ๋œ ๋ฐ์ดํ„ฐ๋Š” ์ ์ ˆํ•œ ํŠน์„ฑ ๋ณ€ํ™˜์„ ํ†ตํ•ด ์„ ํ˜•์ ์œผ๋กœ ๋ถ„๋ฆฌ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋จ.
    • ์‹ ๊ฒฝ๋ง์˜ ์—ญํ• : ์‹ ๊ฒฝ๋ง์˜ ์€๋‹‰์ธต์€ ์ด๋Ÿฌํ•œ ํŠน์„ฑ ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ๋ฅผ ๋‹จ์ˆœํ™”ํ•จ.
      • More hidden units = more capacity ์ด์ง€๋งŒ ์‚ฌ์ด์ฆˆ๋ฅผ ์ค„์ด๊ธฐ ๋ณด๋‹ค๋Š” L2 ์ •๊ทœํ™”๋ฅผ ์ง„ํ–‰ํ•˜๊ธฐ
    • ReLU์˜ ํ™œ์šฉ: ReLU์™€ ๊ฐ™์€ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋Š” ๋น„์„ ํ˜•์„ฑ์„ ๋„์ž…ํ•˜์—ฌ ์‹ ๊ฒฝ๋ง์ด ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜๊ณ  ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•จ.

6. Universal Approximation ( ๋ณดํŽธ์  ๊ทผ์‚ฌ )

  • Universal Approximation ์ •๋ฆฌ๋Š” ์‹ ๊ฒฝ๋ง์˜ ๊ฐ•๋ ฅํ•œ ํ‘œํ˜„ ๋Šฅ๋ ฅ์„ ๋‚˜ํƒ€๋ƒ„.

  • ์‹ ๊ฒฝ๋ง์€ ๋ณต์žกํ•œ ๋น„์„ ํ˜• ํ•จ์ˆ˜๋„ ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ์Œ.

  • ๊ทธ๋Ÿฌ๋‚˜ ์‹ค์ œ๋กœ ๋„คํŠธ์›Œํฌ๊ฐ€ '๋ฒ”ํ”„'์™€ ๊ฐ™์€ ํŠน์ • ๊ตฌ์กฐ๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋ฉฐ, ๋งค๋„๋Ÿฌ์šด ๊ทผ์‚ฌ๋ฅผ ํ†ตํ•ด ๊ธฐ๋Šฅ์„ ๊ตฌํ˜„ํ•จ.

    • 4๊ฐœ์˜ ์€๋‹‰์ธต์„ RELU ๋ฅผ ํ†ตํ•ด BUMP FUNCTION์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ
    • 4K์˜ hidden units ์œผ๋กœ๋Š” k bumps์˜ ํ•ฉ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ
    • Gaps between bumps? (๋ฒ”ํ”„ ์‚ฌ์ด์˜ ๊ฐ„๊ฒฉ?): ๋ฒ”ํ”„ ์‚ฌ์ด์— ๊ฐ„๊ฒฉ์ด ์ƒ๊ธฐ์ง€ ์•Š๋„๋ก ์ ์ ˆํ•œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜์™€ ๊ฐ€์ค‘์น˜๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•จ. ์‹ ๊ฒฝ๋ง์€ ์ด๋Ÿฐ ๊ฐ„๊ฒฉ์„ ์ฑ„์šฐ๊ธฐ ์œ„ํ•ด ์ ์ ˆํžˆ ๋งค๋„๋Ÿฝ๊ฒŒ ์—ฐ๊ฒฐ๋˜๋Š” ํ˜•ํƒœ๋ฅผ ํ•™์Šตํ•จ.
    • Other nonlinearities? (๋‹ค๋ฅธ ๋น„์„ ํ˜•์„ฑ?): ReLU ์™ธ์—๋„ ์‹œ๊ทธ๋ชจ์ด๋“œ(sigmoid), ํƒ„์  ํŠธ ํ•˜์ดํผ๋ณผ๋ฆญ(tanh) ๋“ฑ ๋‹ค์–‘ํ•œ ๋น„์„ ํ˜• ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ.
    • Higher-dimensional functions? (๊ณ ์ฐจ์› ํ•จ์ˆ˜?):
        ๊ณ ์ฐจ์› ํ•จ์ˆ˜๋Š” ๋” ๋งŽ์€ ์€๋‹‰ ์œ ๋‹›๊ณผ ์ธต์„ ํ•„์š”๋กœ ํ•  ์ˆ˜ ์žˆ์Œ. ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์—์„œ๋Š” ๋„คํŠธ์›Œํฌ์˜ ๋ณต์žก์„ฑ์„ ์ฆ๊ฐ€์‹œ์ผœ์•ผ ํ•˜์ง€๋งŒ, ์ด๋ก ์ ์œผ๋กœ๋Š” ์—ฌ์ „ํžˆ ๊ทผ์‚ฌ ๊ฐ€๋Šฅํ•จ

    7. Nonconvex Optimization

  • ์‹ ๊ฒฝ๋ง์—์„œ ๋น„์ปจ๋ฒก์Šค ์ตœ์ ํ™”์˜ ํ•„์š”์„ฑ:

    • ์†์‹ค ํ•จ์ˆ˜์˜ ๊ทธ๋ž˜ํ”„๊ฐ€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ง€์—ญ ์ตœ์†Œ๊ฐ’(local minima)๊ณผ ๋ณต์žกํ•œ ํ‘œ๋ฉด์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธ
    • ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ๋‹จ์ˆœํ•œ ๋ณผ๋ก(convex) ํ•จ์ˆ˜์ฒ˜๋Ÿผ ํ•˜๋‚˜์˜ ์ „์—ญ ์ตœ์†Œ๊ฐ’(global minimum)๋งŒ ๊ฐ€์ง€๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์—ฌ๋Ÿฌ ์ตœ์ ํ™” ์ง€์ ์ด ์กด์žฌํ•  ์ˆ˜ ์žˆ์Œ
  • ์ˆ˜๋ ด์— ๋Œ€ํ•œ ๋ณด์žฅ ์—†์Œ (Few or no guarantees about convergence):

    • ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ํ•˜๋‚˜์˜ ์ง€์—ญ ์ตœ์ ํ•ด(local optimum) ๋˜๋Š” ์•ˆ์žฅ์ (saddle point)์— ๋ฉˆ์ถœ ์ˆ˜ ์žˆ์Œ
  • ๊ฒฝํ—˜์ ์œผ๋กœ ์ž‘๋™ํ•จ (Empirically, it seems to work anyway):

    • ๋‹ค์–‘ํ•œ ์ตœ์ ํ™” ๊ธฐ๋ฒ•๊ณผ ๊ธฐ์ˆ ์„ ํ†ตํ•ด ์›ํ•˜๋Š” ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ์Œ

์—ญ์ „ํŒŒ(Backpropagation)

1. ์—ญ์ „ํŒŒ

  • ์—ญ์ „ํŒŒ(Backpropagation): ์‹ ๊ฒฝ๋ง ํ•™์Šต์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ค‘ ํ•˜๋‚˜๋กœ, ์ถœ๋ ฅ์—์„œ ์ž…๋ ฅ ๋ฐฉํ–ฅ์œผ๋กœ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐฉ๋ฒ•์ž„. ์ด๋ฅผ ํ†ตํ•ด ์†์‹ค ํ•จ์ˆ˜์˜ ๊ฐ’์„ ์ตœ์†Œํ™”ํ•จ.

2. ์—ญ์ „ํŒŒ์˜ ์›๋ฆฌ

  • ์ˆœ๋ฐฉํ–ฅ ์ „ํŒŒ(Forward Propagation): ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ›์•„ ๊ฐ ์ธต์„ ํ†ตํ•ด ์ถœ๋ ฅ์„ ๊ณ„์‚ฐํ•˜๋Š” ๊ณผ์ •์ž„.
  • ์—ญ๋ฐฉํ–ฅ ์ „ํŒŒ(Backward Propagation): ์ถœ๋ ฅ์—์„œ ์ž…๋ ฅ ๋ฐฉํ–ฅ์œผ๋กœ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•จ.

3. ์—ญ์ „ํŒŒ์˜ ๊ณ„์‚ฐ ๊ณผ์ •

  • ์ˆœ๋ฐฉํ–ฅ ๊ณ„์‚ฐ: ์ž…๋ ฅ x๋กœ๋ถ€ํ„ฐ ์ถœ๋ ฅ์„ ๊ณ„์‚ฐํ•จ โ‡’ Compute outputs
  • ์†์‹ค ํ•จ์ˆ˜ ๊ณ„์‚ฐ: ์˜ˆ์ธก ๊ฐ’๊ณผ ์‹ค์ œ ๊ฐ’ ๊ฐ„์˜ ์˜ค์ฐจ๋ฅผ ๊ณ„์‚ฐํ•จ
  • ์—ญ๋ฐฉํ–ฅ ๊ณ„์‚ฐ: ์ถœ๋ ฅ์—์„œ ์ž…๋ ฅ ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ ๊ฐ€์ค‘์น˜์— ๋Œ€ํ•œ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•จ.

4. ์ฒด์ธ ๋ฃฐ๊ณผ ์†์‹คํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ ๊ณ„์‚ฐ

  • ์ฒด์ธ ๋ฃฐ(Chain Rule): ์—ญ์ „ํŒŒ์˜ ํ•ต์‹ฌ์€ ์ฒด์ธ ๋ฃฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ๋ณ€์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์ž„.

    • ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ทธ๋ž˜๋””์–ธํŠธ = ๋กœ์ปฌ ๊ทธ๋ž˜๋””์–ธํŠธ X ์—…์ŠคํŠธ๋ฆผ ๊ทธ๋ž˜๋””์–ธํŠธ(ํ˜„์žฌ ๋…ธ๋“œ๋กœ ๋“ค์–ด์˜ค๋Š” ๊ทธ๋ž˜๋””์–ธํŠธ ๊ฐ’)
      • [Downstream] = [Local] * [Upstream]
    • ์ˆ˜์‹:

    ์˜ˆ : ์‹œ๊ทธ๋ชจ์ด๋“œ ์—ญ์ „ํŒŒ

  • ํŠน์ • ์—ฐ์‚ฐ(์˜ˆ: ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜)์—์„œ ๊ธฐ์šธ๊ธฐ ๊ณ„์‚ฐํ•˜๋Š” ๊ณผ์ •

  • ์ „ํŒŒ(backpropagation) ๊ณผ์ •์„ ํ†ตํ•ด ์†์‹ค ํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ(gradient)๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ์˜ˆ์ œ

5. ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ ์—ญ์ „ํŒŒ (Backpropagation with Vectors)

  • ๋ฒกํ„ฐ ๋ฏธ๋ถ„์˜ ๊ฐœ๋…: ๋ฒกํ„ฐ ๋ฏธ๋ถ„์€ ๊ฐ ์ž…๋ ฅ ์š”์†Œ์˜ ์ž‘์€ ๋ณ€ํ™”๊ฐ€ ์ถœ๋ ฅ ๋ฒกํ„ฐ์˜ ๊ฐ ์š”์†Œ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ๊ฒฐ๊ณผ๋Š” ์ž์ฝ”๋น„์•ˆ ํ–‰๋ ฌ๋กœ ๋‚˜ํƒ€๋‚จ.
    • ์ž์ฝ”๋น„์•ˆ ํ–‰๋ ฌ์€ ์ถœ๋ ฅ ๋ฒกํ„ฐ์˜ ๊ฐ ์š”์†Œ์— ๋Œ€ํ•œ ์ž…๋ ฅ ๋ฒกํ„ฐ์˜ ๋ฏธ๋ถ„์„ ํฌํ•จํ•˜๋ฉฐ, ์ด๋Š” ์—ญ์ „ํŒŒ ๊ณผ์ •์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•จ.
  • ์—ญ์ „ํŒŒ์˜ ๊ตฌ์ฒด์ ์ธ ์˜ˆ: ํ•จ์ˆ˜ f(x)=maxโก(0,x)์˜ ๊ฒฝ์šฐ, ์ž…๋ ฅ ๋ฒกํ„ฐ x๊ฐ€ ์ฃผ์–ด์ง€๋ฉด, ์ถœ๋ ฅ ๋ฒกํ„ฐ y์™€ ์ด์— ๋Œ€ํ•œ ๊ทธ๋ž˜๋””์–ธํŠธ โˆ‚L/โˆ‚y๊ฐ€ ๊ณ„์‚ฐ๋จ.
    • ์ด๋•Œ ์ž์ฝ”๋น„์•ˆ ํ–‰๋ ฌ๊ณผ ๊ทธ๋ž˜๋””์–ธํŠธ์˜ ๊ณฑ์„ ํ†ตํ•ด ์ž…๋ ฅ ๋ฒกํ„ฐ์— ๋Œ€ํ•œ ๊ทธ๋ž˜๋””์–ธํŠธ โˆ‚L/โˆ‚x๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Œ.

5-1. ์ž์ฝ”๋น„์•ˆ ํ–‰๋ ฌ(Jacobian matrix):

  • ์—ญ์ „ํŒŒ๋Š” ์†์‹ค ํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ, ์ด๋ฅผ ์ด์šฉํ•ด ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ณผ์ •
    • ์ด๋•Œ, ๊ฐ ๊ณ„์ธต์˜ ์ถœ๋ ฅ์ด ๋‹ค์Œ ๊ณ„์ธต์˜ ์ž…๋ ฅ์ด ๋˜๋ฏ€๋กœ, ๊ฐ ๊ณ„์ธต์˜ ๋ฏธ๋ถ„์„ ์ฒด์ธ ๋ฃฐ์„ ํ†ตํ•ด ์—ฐ๊ฒฐํ•ด์•ผ ํ•จ
  • ์ž์ฝ”๋น„์•ˆ ํ–‰๋ ฌ(โˆ‚x/โˆ‚y)์— ๋Œ€ํ•œ ๋””ํ…Œ์ผํ•œ ์„ค๋ช…:
    • ์—ญ์ „ํŒŒ ๊ณผ์ • ์‹œ ์ฒด์ธ ๋ฃฐ์„ ํ†ตํ•ด ๊ธฐ์šธ๊ธฐ๋ฅผ ์ „ํŒŒํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ์š”์†Œ
    • ReLU ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ ํ›„, ์—ญ์ „ํŒŒ ๊ณผ์ •์„ ํ†ตํ•ด ์†์‹ค ํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐ
      • ReLU ํ•จ์ˆ˜์˜ ์ž์ฝ”๋น„์•ˆ ํ–‰๋ ฌ์€ ๋Œ€๊ฐ์„ ์— 0 ๋˜๋Š” 1์„ ๊ฐ€์ง€๋ฉฐ, ๋น„๋Œ€๊ฐ์„ ์€ ๋ชจ๋‘ 0
        • ์ด ํ–‰๋ ฌ์€ ์ž…๋ ฅ x์˜ ๋ณ€ํ™”๊ฐ€ ์ถœ๋ ฅ y( ์ถœ๋ ฅ ๋ฒกํ„ฐ์˜ ๊ฐ ์„ฑ๋ถ„)์— ์–ด๋–ป๊ฒŒ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ„
        • ReLU์˜ ํŠน์„ฑ์ƒ, ์–‘์ˆ˜์˜€๋˜ ์ž…๋ ฅ๊ฐ’์— ๋Œ€ํ•ด์„œ๋Š” ๊ธฐ์šธ๊ธฐ 1์„ ๊ฐ€์ง€๋ฉฐ, ์Œ์ˆ˜์˜€๋˜ ์ž…๋ ฅ๊ฐ’์— ๋Œ€ํ•ด์„œ๋Š” ๊ธฐ์šธ๊ธฐ 0์„ ๊ฐ€์ง. ์—ฌ๊ธฐ์„œ๋Š” ์ฒซ ๋ฒˆ์งธ์™€ ์„ธ ๋ฒˆ์งธ ์›์†Œ๋งŒ 1์ด๊ณ , ๋‚˜๋จธ์ง€๋Š” 0
  • Downstream Gradient (โˆ‚x/โˆ‚L):
    • ์ž…๋ ฅ x์— ๋Œ€ํ•œ ์†์‹ค ํ•จ์ˆ˜ L์˜ ๊ธฐ์šธ๊ธฐ
    • ์ด๋Š” Upstream Gradient์™€ ์ž์ฝ”๋น„์•ˆ ํ–‰๋ ฌ์˜ ๊ณฑ์œผ๋กœ ๊ณ„์‚ฐ
  • ์ตœ์ข…์ ์œผ๋กœ, โˆ‚x / โˆ‚L๋Š” [4, 0, 5, 0]์ด ๋จ
    • ์ด๋Š” ์ž…๋ ฅ x์˜ ๊ฐ ์›์†Œ์— ๋Œ€ํ•ด ์†์‹ค L์˜ ๋ณ€ํ™”๋Ÿ‰์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ด ๊ฐ’์„ ์ด์šฉํ•ด ์‹ ๊ฒฝ๋ง์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธ
    • ์ด ๊ณผ์ •์„ ํ†ตํ•ด ์‹ ๊ฒฝ๋ง์ด ํ•™์Šตํ•˜๋ฉฐ, ์ถœ๋ ฅ๊ณผ ์‹ค์ œ ๊ฐ’ ๊ฐ„์˜ ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •

5-2. ํ–‰๋ ฌ ๊ณฑ์…ˆ์„ ์‚ฌ์šฉํ•œ ์˜ˆ (Matrix Multiplication Example)

  • dy/dx2,3๋Š” ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ w์˜ ์„ธ ๋ฒˆ์งธ ํ–‰์˜ ๊ฐ’์„ ์˜๋ฏธ

  • ํ–‰๋ ฌ ๊ณฑ์…ˆ์˜ ์—ญ์ „ํŒŒ

    • ๊ทธ๋ž˜๋””์–ธํŠธ ๊ณ„์‚ฐ: ํ–‰๋ ฌ ๊ณฑ์…ˆ์˜ ๊ฒฝ์šฐ, ์†์‹ค ํ•จ์ˆ˜์— ๋Œ€ํ•œ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณ„์‚ฐํ•  ๋•Œ ๊ฐ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ์š”์†Œ๊ฐ€ ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ฐ˜์˜์ž…๋ ฅ ํ–‰๋ ฌ X์— ๋Œ€ํ•œ ์†์‹ค ํ•จ์ˆ˜ L์˜ ๊ทธ๋ž˜๋””์–ธํŠธ ๊ณ„์‚ฐ
      • 1) ์ฃผ์–ด์ง„ ์ž…๋ ฅ ํ–‰๋ ฌ x์™€ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ w๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ถœ๋ ฅ ํ–‰๋ ฌ y ๊ณ„์‚ฐ
      • 2) ์†์‹ค ํ•จ์ˆ˜์˜ ๊ทธ๋ž˜๋””์–ธํŠธ โˆ‚L/โˆ‚y์— ๋Œ€ํ•ด ์ž…๋ ฅ ํ–‰๋ ฌ x์™€ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ w์— ๋Œ€ํ•œ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ณผ์ •์œผ๋กœ ๊ตฌ์„ฑ
  • N: ํ–‰๋ ฌ์˜ ํ–‰, D: ํ–‰๋ ฌ์˜ ์—ด

    • ๊ฐ ์ž…๋ ฅ์ด ์†์‹ค์— ์–ผ๋งˆ๋‚˜ ๊ธฐ์—ฌํ•˜๋Š”์ง€
    • ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ w์— ๋Œ€ํ•œ ์†์‹ค ํ•จ์ˆ˜ L์˜ ๊ทธ๋ž˜๋””์–ธํŠธ ๊ณ„์‚ฐ
      • ๊ฐ€์ค‘์น˜๊ฐ€ ์†์‹ค์— ์–ผ๋งˆ๋‚˜ ๊ธฐ์—ฌํ•˜๋Š”์ง€

5-3 .์—ญ์ „ํŒŒ์˜ ๋˜ ๋‹ค๋ฅธ ๊ด€์  (Backpropagation: Another View)

  • ์—ฐ์‡„ ๋ฒ•์น™: ์—ญ์ „ํŒŒ์˜ ํ•ต์‹ฌ์€ ์—ฐ์‡„ ๋ฒ•์น™์„ ํ™œ์šฉํ•˜์—ฌ, ์ถœ๋ ฅ์—์„œ๋ถ€ํ„ฐ ์ž…๋ ฅ์œผ๋กœ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ์ „ํŒŒํ•˜๋Š” ๊ณผ์ •์ž„
    • ์ด๋Š” ์ปดํ“จํŒ… ๊ทธ๋ž˜ํ”„์—์„œ ๊ฐ ๋…ธ๋“œ๊ฐ€ ๋กœ์ปฌ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ์ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ๋ฅ˜ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณฑํ•ด ํ•˜๋ฅ˜ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๊ตฌํ˜„๋จ.

5-4. ์ž๋™ ๋ฏธ๋ถ„ (Automatic Differentiation)

  • Reverse-Mode: ์—ญ์ „ํŒŒ๋Š” ์ข…์ข… reverse-mode ์ž๋™ ๋ฏธ๋ถ„์œผ๋กœ ๋ถˆ๋ฆฌ๋ฉฐ, ์ด๋Š” ์Šค์นผ๋ผ ์ถœ๋ ฅ์— ๋Œ€ํ•œ ๋ฒกํ„ฐ ์ž…๋ ฅ์˜ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ณ„์‚ฐํ•จ
    • ์ด๋Š” ์‹ ๊ฒฝ๋ง ํ›ˆ๋ จ์—์„œ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋จ.
  • Forward-Mode: ์ „๋ฐฉํ–ฅ ์ž๋™ ๋ฏธ๋ถ„์€ ๋ฒกํ„ฐ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์Šค์นผ๋ผ ์ถœ๋ ฅ์˜ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐ ์œ ์šฉํ•จ.
    • ์ด๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์ ๊ณ  ์ž…๋ ฅ์ด ๋งŽ์€ ์ƒํ™ฉ์—์„œ ์œ ๋ฆฌํ•จ.

[ ์งˆ๋ฌธ ]

  • Reverse-mode ์ฆ‰ ์—ญ์ „ํŒŒ๋ฅผ ํ†ตํ•ด ์†์‹คํ•จ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธ ํ•œ๋‹ค๋Š”๊ฒƒ์€ ์ดํ•ด๊ฐ€ ๋˜๋Š”๋ฐ, Forward-Mode๋ฅผ ํ†ตํ•ด ์Šค์นผ๋ผ ์ž…๋ ฅ์— ๋Œ€ํ•œ ๋ฒกํ„ฐ ์ถœ๋ ฅ์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•  ํ•„์š”๊ฐ€ ์žˆ๋Š”๊ฐ€ ? ์ด์œ ๋Š” ?
  • ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์„œ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์ž์ฝ”๋น„์•ˆ ํ–‰๋ ฌ์„ ๋ช…์‹œ์ ์œผ๋กœ ๊ณ„์‚ฐํ•˜๋Š”๊ฒƒ๊ณผ ๋กœ์ปฌ ๊ทธ๋ž˜๋””์–ธํŠธ์™€ ์—…์ŠคํŠธ๋ฆผ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณฑํ•˜์—ฌ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹ 2๊ฐ€์ง€๊ฐ€ ์žˆ๋Š”๊ฑด๊ฑฐ?
  • ์ธํ’‹๊ณผ ์•„์›ƒํ’‹์ด ๋ฒกํ„ฐ์ธ ๊ฒฝ์šฐ : ์ž์ฝ”๋น„์•ˆ
  • ์ธํ’‹๊ณผ ์•„์›ƒํ’‹์ด ๋งคํŠธ๋ฆญ์Šค์ธ ๊ฒฝ์šฐ : ์—…์ŠคํŠธ๋ฆผ ์ •๋ณด๋Š” ์•„๋Š”๋ฐ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์–ด๋–ป๊ฒŒ ์“ธ๊บผ๋ƒ?? ๊ฐ€ ์ค‘์š”ํ•œ ๋…ผ์ •
  • ์Šค์นผ๋ผ์—์„œ๋Š” ๋กœ์ปฌ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ์•Œ๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ทธ๋ž˜๋””์–ธ๋“œ ๊ณ„์‚ฐ ๊ฐ€๋Šฅ. (dL์€ ๋กœ์ปฌ ๊ทธ๋ž˜๋””์–ธํŠธ. ํ–‰๋ ฌ์€ ๊ฐ•์˜์—์„œ ์˜ˆ์‹œ๋กœ ์ฃผ์–ด์ง).
    - ๋กœ์ปฌ ๊ทธ๋ž˜๋””์–ธํŠธ๋Š” ํ–‰๋ ฌ์—์„œ๋Š” ๋ฒกํ„ฐ์˜ ํ•˜๋‚˜์˜ ๊ฐ’์— ๋Œ€ํ•œ ์ •๋ณด์ž„
    • ํ–‰๋ ฌ ํ†ต์งธ๋Š” ์•ˆ๋˜์ง€๋งŒ ๋ฒกํ„ฐ์˜ ํ•œ์ž๋ฆฌ์—๋Š” ๊ฐ’ ๊ตฌํ•  ์ˆ˜ ์žˆ์Œ. ์ฆ‰ ํœด๋ฆฌ์Šคํ‹ฑํ•˜๊ฒŒ ๊ตฌํ•˜๋ฉด => ๊ทธ๋Ÿฌ๋ฉด ์ฒด์ธ๋ฃฐ์„ ์ด์šฉํ•ด์„œ ํ–‰๋ ฌ๊ณฑ์œผ๋กœ ๊ตฌํ•  ์ˆ˜ ์žˆ๊ฒ ๋‹ค๋Š” ์•„์ด๋””์–ด
    • ์ด ๋‘๊ฐœ ํ–‰๋ ฌ ๊ณฑ์ด ๋กœ์ปฌ ๊ทธ๋ž˜๋””์–ธํŠธ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Œ

์ฐธ๊ณ  ๊ฐ•์˜ :

profile
[ SPS Lab Paper Seminar YouTube ] : https://www.youtube.com/@spslab.1648

0๊ฐœ์˜ ๋Œ“๊ธ€