[Week 3-2] ๐Ÿ’ก์ตœ์ ํ™”, ์ •๊ทœํ™” ๊ธฐ๋ฒ•

Jadeยท2021๋…„ 2์›” 2์ผ
0

๋ถ€์ŠคํŠธ์บ ํ”„ AI Tech

๋ชฉ๋ก ๋ณด๊ธฐ
12/54

3์ฃผ์ฐจ ํ™”์š”์ผ

  • ์ตœ์ ํ™” ๊ธฐ๋ฒ•
  • ์ •๊ทœํ™” ๊ธฐ๋ฒ•

๐Ÿ“Œ[๋“ค์–ด๊ฐ€๊ธฐ ์ „์—]

  • ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ : ํ•™์Šต ๊ฒฐ๊ณผ์™€ ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ ์‚ฌ์ด์˜ ์ฐจ์ด (Generalization gap)
    ๋ณดํ†ต ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ๋†’์„ ์ˆ˜๋ก ์ข‹์ง€๋งŒ ์•„๋ž˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ๋ชจ๋ธ ์ž์ฒด๊ฐ€ ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ๋„ ์—‰๋ง์ธ ๊ฒฝ์šฐ์—๋Š” generalization gap์ด ์ž‘์ง€๋งŒ ๊ฒฐ๊ณผ์ ์œผ๋กœ๋Š” ์„ฑ๋Šฅ์ด ๋” ๋–จ์–ด์ง€๋Š” ๋ชจ๋ธ์ผ ์ˆ˜๋„ ์žˆ๋‹ค.
    ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ๋‹ค๊ฐ€ ์•„๋‹ˆ๋‹ค!

  • Underfitting (๊ณผ์†Œ์ ํ•ฉ) : ํ•™์Šต์„ ์ถฉ๋ถ„ํžˆ ํ•˜์ง€ ๋ชปํ–ˆ๊ฑฐ๋‚˜ ์ž˜๋ชป๋œ ์„ค๊ณ„ ๋“ฑ์œผ๋กœ ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํŠน์„ฑ์„ ๋‹ค ๋ฝ‘์•„๋‚ด์ง€ ๋ชปํ•œ ์ƒํƒœ

  • Overfitting (๊ณผ๋Œ€์ ํ•ฉ) : ๋ชจ๋ธ์ด ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์…‹์„ ์ง€๋‚˜์น˜๊ฒŒ ๋งŽ์ด ํ•™์Šตํ•ด์„œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋”ฑ ๋งž๊ฒŒ ์œ ์ฐฉ๋˜์–ด ๋ฒ„๋ฆฐ ์ƒํƒœ ๊ณจ๋ผ๋ณด๋ผ๊ณ  ๋ฐ์ดํ„ฐ ๊ฑด๋„ค์ฃผ๋Š” ์ˆœ์„œ๋ฅผ ์™ธ์›Œ ๋ฒ„๋ ธ๋‹ค
    ๊ณผ๋Œ€์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ•™์Šต์…‹๊ณผ ํ…Œ์ŠคํŠธ์…‹์„ ์ฒ ์ €ํžˆ ๋ถ„๋ฆฌํ•˜๊ณ , ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ •๊ทœํ™”(regularization) ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ k๊ฒน ๊ต์ฐจ ๊ฒ€์ฆ์„ ์‹คํ–‰ํ•œ๋‹ค.

  • Batch size : ๊ฐ€์ค‘์น˜์™€ ๋ฐ”์ด์–ด์Šค๋ฅผ 1ํšŒ ์—…๋ฐ์ดํŠธํ•  ๋•Œ๋งˆ๋‹ค ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค ์‚ฌ์šฉํ•˜๋ ค๋ฉด ์—ฐ์‚ฐ๋Ÿ‰์ด ๋„ˆ๋ฌด ๋งŽ๊ณ  ๋น„ํšจ์œจ์ ์ด๋ผ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์˜ ๋ณ€์ข…์ธ SGD๋‚˜ mini-batch SGD์ด ๋“ฑ์žฅํ–ˆ๋‹ค. ์ด๋“ค ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์„œ๋Š” ๊ฐ€์ค‘์น˜๋ฅผ 1ํšŒ ์—…๋ฐ์ดํŠธํ•  ๋•Œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ์ผ๋ถ€๋งŒ ์‚ฌ์šฉํ•œ๋‹ค. ์ด ๋•Œ '์ผ๋ถ€ ๋ฐ์ดํ„ฐ'์˜ ํฌ๊ธฐ๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๊ฒƒ์ด batch size๋‹ค.


๐Ÿ“[์ตœ์ ํ™” ๊ธฐ๋ฒ•]

๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ ๋•Œ๋Š” ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์„ ์ด์šฉํ•ด์„œ ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ์ž‘์•„์ง€๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€์ค‘์น˜์™€ ๋ฐ”์ด์–ด์Šค๋ฅผ ์—…๋ฐ์ดํŠธํ•œ๋‹ค(์ตœ์ ์˜ ๊ฐ€์ค‘์น˜์™€ ๋ฐ”์ด์–ด์Šค๋ฅผ ์ฐพ๋Š” ๊ฒƒ).
ํ•˜์ง€๋งŒ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์€ ํฐ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ์—์„œ๋Š” ์ˆ˜๋ ด ์†๋„๊ฐ€ ๋Š๋ฆฌ๊ณ  ๊ทน์†Œ(local minima)์— ๋น ์งˆ ์œ„ํ—˜์ด ์žˆ์–ด์„œ ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•œ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ตœ์ ํ™” ๊ธฐ๋ฒ•๋“ค์ด ๋“ฑ์žฅํ–ˆ๋‹ค.

  • GD, SGD
    ์ƒˆ๋กœ์šด ๊ฐ€์ค‘์น˜ W_t+1์€ ์ด์ „ ๊ฐ€์ค‘์น˜ W_t์—์„œ gradient์— ๐œ‚(ํ•™์Šต์œจ)์„ ๊ณฑํ•ด ๋นผ ์ค€ ๊ฒƒ๊ณผ ๊ฐ™๋‹ค.
    (ํ•จ์ˆ˜๊ฐ’์—์„œ ๋ฏธ๋ถ„๊ฐ’์„ ๋นผ ์ฃผ๋ฉด ๊ฐ’์ด ๋ฌด์กฐ๊ฑด ๊ฐ์†Œํ•œ๋‹ค. ์ด๊ฑฐ ์ฐธ๊ณ .)

  • Momentum
    local minima์— ๋น ์ง€๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด gradient๊ฐ€ ๊ฐ์†Œํ•˜๋˜ ๋ฐฉํ–ฅ์„ ์œ ์ง€ํ•œ๋‹ค. a ํ•ญ์ด ๋งˆ์น˜ ๊ด€์„ฑ์ฒ˜๋Ÿผ ์ž‘์šฉํ•ด์„œ ๊ทน์†Œ๊ฐ’์— ๋„๋‹ฌํ•˜๋”๋ผ๋„ ๋‹ค์Œ ์Šคํ…์—์„œ๋Š” ์ด๋™ํ•˜๋˜ ๋ฐฉํ–ฅ์„ ์œ ์ง€ํ•˜๋ฉฐ ๊ทน์†Œ๋ฅผ ์ง€๋‚˜์ณ์„œ ์กฐ๊ธˆ ๋” ๊ฐ€๊ฒŒ ๋œ๋‹ค. ์ด๊ฒƒ์ด ์žฅ์ ์ด์ž ๋‹จ์ ์œผ๋กœ ์ž‘์šฉํ•˜๋Š”๋ฐ, ๊ทน์†Œ์— ๋œ ๋น ์ง€์ง€๋งŒ ์ˆ˜๋ ด์ด ๋Š๋ฆฌ๋‹ค.

  • Nesterov Accelerated Momentum
    Momentum์„ ์กฐ๊ธˆ ๋” ๊ฐœ์„ ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ, ์•„์ง ๊ฐ€ ๋ณด์ง€ ์•Š์€ ๋‹ค์Œ ์Šคํ… ๋ฐฉํ–ฅ์œผ๋กœ ๋ฏธ๋ฆฌ ๊ฐ€ ๋ณด๊ณ  ๊ทธ ์ง€์ ์—์„œ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•œ ๋‹ค์Œ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ์— ๋ฐ˜์˜ํ•œ๋‹ค. Momentum๋ณด๋‹ค ์ˆ˜๋ ด์ด ๋น ๋ฅด๋‹ค.

  • Adagrad
    Adaptive gradient ๋ฐฉ์‹์œผ๋กœ, ํ•™์Šต ๊ฒฐ๊ณผ์— ๋”ฐ๋ผ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•  ๋•Œ์˜ ์Šคํ…(ํ•™์Šต์œจ)์ด ๋‹ฌ๋ผ์ง„๋‹ค. G_t๋Š” ๋ชจ๋“  gradient ์ œ๊ณฑ์˜ ๋ˆ„์ ํ•ฉ์œผ๋กœ, G_t๊ฐ€ ๋ถ„๋ชจ์— ์žˆ๊ธฐ ๋•Œ๋ฌธ์— gradient๊ฐ€ ์ฒ˜์Œ ๊ฐ’์— ๋น„ํ•ด ๋งŽ์ด ๋ณ€ํ–ˆ์œผ๋ฉด ๊ทธ์— ๋ฐ˜๋น„๋ก€ํ•ด์„œ ํ•™์Šต ์Šคํ…์ด ์ž‘์•„์ง„๋‹ค.

    ๋ฌธ์ œ๋Š” ํ•™์Šต ํšŸ์ˆ˜๊ฐ€ ์•„์ฃผ ๋งŽ์•„์„œ G_t๊ฐ€ ๋ถ„์ž ๐œ‚์— ๋น„ํ•ด ๋ฌดํ•œ๋Œ€์— ๊ฐ€๊น๊ฒŒ ์ปค์งˆ ๊ฒฝ์šฐ
    ์ƒ์ˆ˜/๋ฌดํ•œ๋Œ€ ๊ผด์ด ๋˜์–ด ๋”์ด์ƒ ๊ฐ€์ค‘์น˜๊ฐ€ ์—…๋ฐ์ดํŠธ๋˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

  • Adadelta
    Adagrad์˜ ๋ฌธ์ œ์ ์„ ๊ฐœ์„ ํ•œ ๋ฐฉ์‹์œผ๋กœ, G_t๊ฐ€ ๋ฌดํ•œํžˆ ์ปค์ง€๋Š” ๊ฒƒ์„ ๋ง‰๊ธฐ ์œ„ํ•ด ์ง€์ˆ˜ ์ด๋™ ํ‰๊ท ์„ ์‚ฌ์šฉํ•˜์—ฌ accumulation window๋ฅผ ์ œํ•œํ•œ๋‹ค. ๋”ฐ๋ผ์„œ Adadelta์—์„œ์˜ G_t๋Š” window ๋ฒ”์œ„ ์•ˆ์—์„œ ๊ณ„์‚ฐ๋œ n๊ฐœ์˜ gradient ์ œ๊ณฑ์˜ ๋ˆ„์ ํ•ฉ์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

    Adadelta์˜ ์‹์„ ์‚ดํŽด๋ณด๋ฉด ํ•™์Šต์œจ ๐œ‚๊ฐ€ ์—†๋Š”๋ฐ, ๋ถ„์ž์˜ H_t term์ด ํ•™์Šต์œจ ์—ญํ• ์„ ํ•œ๋‹ค. G_t๊ฐ€ gradient์˜ ๋ณ€ํ™”์œจ์— ๋Œ€ํ•œ ์ •๋ณด์˜€๋‹ค๋ฉด H_t๋Š” ๊ฐ€์ค‘์น˜ W์˜ ๋ณ€ํ™”์œจ์— ๋Œ€ํ•œ ์ •๋ณด๋‹ค. ํ•™์Šต ์ดˆ๊ธฐ์—๋Š” ๊ฐ€์ค‘์น˜๊ฐ€ ๋งŽ์ด ๋ณ€ํ•˜๊ณ  ํ•™์Šต์ด ์ง„ํ–‰๋ ์ˆ˜๋ก ๊ฐ€์ค‘์น˜๊ฐ€ ์ตœ์ ํ™”๋˜์–ด ๋ณ€ํ™”๋Ÿ‰์ด ์ž‘์„ ๊ฒƒ์ด๋‹ค. ๊ฐ€์ค‘์น˜๊ฐ€ ์ตœ์ ํ™”๋˜์–ด๊ฐˆ ๋•Œ ํ•™์Šต ์Šคํ…์ด ํฌ๋ฉด ์˜คํžˆ๋ ค ์ด์ƒํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€์„œ ์ˆ˜๋ ด์ด ๋Š๋ ค์งˆ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ€์ค‘์น˜์˜ ๋ณ€ํ™”๋Ÿ‰(H term)์— ๋น„๋ก€ํ•˜์—ฌ ํ•™์Šต ์Šคํ…์„ Adaptiveํ•˜๊ฒŒ ์„ค์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

    Adadelta์˜ ๋ฌธ์ œ๋Š” GPT-3์ฒ˜๋Ÿผ ์•„์ฃผ์•„์ฃผ์•„์ฃผ์•„์ฃผ ํฐ ๋ชจ๋ธ์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ํž˜๋“ค๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ˆ˜์‹ญ์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ–๋Š” ๋ชจ๋ธ์ธ ๊ฒฝ์šฐ ์—„์ฒญ๋‚œ ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ window ํฌ๊ธฐ๋งŒํผ ๋“ค๊ณ  ๋‹ค๋…€์•ผ ํ•œ๋‹ค. ์ง€์ˆ˜์ด๋™ํ‰๊ท ์„ ์ทจํ•˜๋Š” ์ด์œ ๊ฐ€ ์ด ๋ถ€๋‹ด์„ ์ข€ ๋œ๊ธฐ ์œ„ํ•ด์„œ๋ผ๊ณ  ํ•œ๋‹ค.
    ์ด ๋ถ€๋ถ„์€ ๋…ผ๋ฌธ์„ ์ฝ์–ด ๋ด์•ผ ํ•  ๊ฒƒ ๊ฐ™๋‹ค.

  • RMSProp
    ์ œํ”„๋ฆฌ ํžŒํŠผ์˜ ๊ฐ•์˜์—์„œ ๋‚˜์˜จ ๋ฐฉ๋ฒ•์œผ๋กœ, Adagrad์— ์ง€์ˆ˜์ด๋™ํ‰๊ท ์„ ์ ์šฉํ•˜์—ฌ ๊ฐœ์„ ํ•œ ๋ฐฉ์‹์ด๋‹ค.

  • Adam
    Adaptive Momentum Estimation์˜ ์•ฝ์–ด๋กœ, ์–˜๋„ Ada~ ์‹œ๋ฆฌ์ฆˆ๋‹ค. Adaptive ๊ณ„์—ด์˜ Gradient ์ œ๊ณฑ์— ์ง€์ˆ˜์ด๋™ํ‰๊ท  ์ทจํ•˜๊ธฐ ๋ฐฉ์‹๊ณผ Momentum์„ ๊ฒฐํ•ฉํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. Gradient^2์˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ ํ•™์Šต์œจ์„ adaptiveํ•˜๊ฒŒ ๋ฐ”๊พธ๋ฉฐ ์ด์ „์˜ Gradient ์ •๋ณด(momentum)๋„ ์‚ฌ์šฉํ•œ๋‹ค. ํ•™์Šต ์†๋„๋„ ๋น ๋ฅด๊ณ  ์ˆ˜๋ ด๋„ ์ž˜ ๋œ๋‹ค! ์š”์ฆ˜์€ ์›ฌ๋งŒํ•˜๋ฉด ์ด๊ฑธ ์“ด๋‹ค.


๐Ÿ“[์ •๊ทœํ™” ๊ธฐ๋ฒ•]

๋ชจ๋ธ์ด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๊ณผ์ ํ•ฉ(overfitting)๋˜์ง€ ์•Š๋„๋ก ํ•ด ์ฃผ๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.

  • Early stopping
    ํ•™์Šต์„ ์•„์ฃผ ๋งŽ์ด ํ•˜๋ฉด ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ๋‹ฌ๋‹ฌ ์™ธ์›Œ์„œ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ๋ชจ๋ธ ์„ฑ๋Šฅ์€ ์ ์  ์ข‹์•„์ง€์ง€๋งŒ ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์— ์™„๋ฒฝํ•˜๊ฒŒ ์œ ์ฐฉ๋˜์–ด ์ฒ˜์Œ ๋ณด๋Š” ๋ฐ์ดํ„ฐ์ธ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์€ ์ ์  ๋‚˜๋น ์ง„๋‹ค. ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์ ๋‹นํ•œ ์œ„์น˜์—์„œ ํ•™์Šต์„ ์ค‘๋‹จํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค. ๋ณดํ†ต loss์˜ ๋ณ€ํ™”๋Ÿ‰์ด ์ผ์ • ๊ฐ’ ์ดํ•˜๊ฐ€ ๋˜๋ฉด ์ค‘๋‹จํ•œ๋‹ค.

  • Data augmentation
    ์ด๋ฏธ์ง€ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๊ธฐ ์œ„ํ•ด์„œ, ๋ ˆ์ด๋ธ”์ด ๋ฐ”๋€Œ์ง€ ์•Š๋Š” ์„ ์—์„œ ๋’ค์ง‘๊ฑฐ๋‚˜ ํšŒ์ „์‹œํ‚ค๊ฑฐ๋‚˜ ๋Š˜๋ฆฌ๊ฑฐ๋‚˜ ์ค„์ด๋Š” ๋“ฑ ์•ฝ๊ฐ„์˜ ์กฐ์ž‘์„ ๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค.
    ์ฃผ์˜) MNIST ๋ฐ์ดํ„ฐ๊ฐ™์€ ๊ฒฝ์šฐ์—๋Š” ์กฐ์ž‘์„ ๊ฐ€ํ•˜๋ฉด ๋ ˆ์ด๋ธ”์ด ๋ฐ”๋€” ์ˆ˜๋„ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๊ฑฐ ํ•˜๊ธฐ ์ „์— ์ž˜ ํ™•์ธํ•ด์•ผ ํ•œ๋‹ค.
  • Noise robustness
    ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์™€ ๊ฐ€์ค‘์น˜์— ๋žœ๋คํ•˜๊ฒŒ ๋…ธ์ด์ฆˆ๋ฅผ ์•ฝ๊ฐ„ ์„ž๋Š” ๊ฒƒ. ์ˆ˜ํ•™์ ์œผ๋กœ๋Š” ์•„์ง ์ฆ๋ช…๋˜์ง€ ์•Š์€ ๊ฒƒ ๊ฐ™์€๋ฐ ์‹คํ—˜์ ์œผ๋กœ ์ž˜ ๋œ๋‹ค๊ณ  ํ•œ๋‹ค...

  • Lable smoothing
    ๋ถ„๋ฅ˜ ๋ฌธ์ œ ๋“ฑ์—์„œ ๋ ˆ์ด๋ธ”์„ 0/1๋กœ ๋‚˜๋ˆ„๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ ์ข€๋” ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค. ์‹ ๊ธฐํ•˜๊ฒŒ๋„ ์„ฑ๋Šฅ์ด ์ž˜ ๋‚˜์˜จ๋‹ค.

  • Dropout
    ํ•™์Šต ๊ณผ์ •์—์„œ ์ผ๋ถ€ ๋…ธ๋“œ์˜ ์ถœ๋ ฅ์„ 0์œผ๋กœ ๋งŒ๋“ ๋‹ค. Noise robustness ๋ฐฉ๋ฒ•๊ณผ ๋น„์Šทํ•˜๊ฒŒ ๋…ธ์ด์ฆˆ ์žˆ๋Š” ํ™˜๊ฒฝ์—์„œ ํ•™์Šตํ•ด์„œ ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•œ๋‹ค.
    ๊ฐ•ํ•˜๊ฒŒ ํ‚ค์šฐ๋‚˜...?


๐Ÿ‘จโ€๐Ÿ‘ฉโ€๐Ÿ‘งโ€๐Ÿ‘ฆ[ํ”ผ์–ด ์„ธ์…˜]

๊ฐ€๋Šฅํ•˜๋ฉด ์ง€์ •๋œ ํ”ผ์–ด ์„ธ์…˜ ์‹œ๊ฐ„์„ ์œ ์ง€ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ 2์‹œ์— ๋ชจ์ด๊ธฐ๋กœ ํ–ˆ๋‹ค. 2์‹œ์— ๋งŒ๋‚˜๋ฉด ๋‹น์ผ ๊ฐ•์˜๋Š” ๋‹ค ์†Œํ™”ํ•˜์ง€ ๋ชปํ•œ ์ƒํƒœ๊ธฐ ๋•Œ๋ฌธ์—, 2์‹œ์— ๋ชจ์ด๋˜ ๋ชจ์—ฌ์„œ ์ „๋‚  ๊ณต๋ถ€ํ•œ ๋‚ด์šฉ์— ๋Œ€ํ•ด ์ด์•ผ๊ธฐํ•˜๊ธฐ๋กœ ํ–ˆ๋‹ค. ํŒ€์› ์ค‘ ํ•œ ๋ถ„์ด ์–ด์ œ ๊ฐ•์˜์— ํฌํ•จ๋˜์–ด ์žˆ๋˜ ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์— ๋Œ€ํ•œ ์„ธ๋ฏธ๋‚˜๋ฅผ ๊ฐ„๋‹จํžˆ ํ•ด ์ฃผ์…จ๋Š”๋ฐ, ๋”ฑ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ๊นŒ์ง€๋งŒ ์•Œ์•„๋“ค์—ˆ๋‹ค. ๋„ˆ๋ฌด ๊ธฐ์ดˆ์ ์ธ ์งˆ๋ฌธ์ด๋ผ ์งˆ๋ฌธ ์•ˆ ํ•˜๊ณ  ์žˆ์—ˆ๋Š”๋ฐ ์„ธ๋ฏธ๋‚˜ ๋๋‚˜๊ณ  ๋‚˜์„œ ํŒ€์›๋“ค์ด ์ •๋ง ์‰ฌ์šด ์งˆ๋ฌธ์ด๋ผ๋„ ์–ผ๋งˆ๋“ ์ง€ ๋ฌผ์–ด๋ด๋„ ๋œ๋‹ค๊ณ  ๊ฒฉ๋ คํ•ด ์ค˜์„œ ๋‚ด์ผ๋ถ€ํ„ฐ๋Š” ์„ธ๋ฏธ๋‚˜์—์„œ ๋ง‰ํžˆ๋Š” ๋ถ€๋ถ„์ด ์žˆ์œผ๋ฉด ๋ฐ”๋กœ ๋ฌผ์–ด๋ณด๊ธฐ๋กœ ํ–ˆ๋‹ค.

์•ฝ์‹ ์„ธ๋ฏธ๋‚˜๊ฐ€ ๋๋‚˜๊ณ  ๋‚˜์„œ ์˜ค๋Š˜ ๊ฐ•์˜ ์ด์•ผ๊ธฐ๋„ ์ข€ ํ–ˆ๋Š”๋ฐ, ์ฃผ์ œ๊ฐ€ MLP์—์„œ ํ•œ ๋ ˆ์ด์–ด์˜ ์ถœ๋ ฅ์€ ์–ด๋–ค ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š”๊ฐ€? ๋กœ ํ˜๋Ÿฌ๊ฐ”๋‹ค. ๋‚ด๊ฐ€ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ€๋ถ„์€ ์„ค๋ช…ํ•˜๊ณ  ๋‹ค๋ฅธ ํŒ€์›์˜ ๋ถ€์—ฐ ์„ค๋ช…์„ ๋“ฃ๊ธฐ๋„ ํ•˜๋ฉด์„œ ์ƒ๊ฐ์ด ์ •๋ฆฌ๋˜๋Š” ๊ฒƒ์„ ๋Š๊ผˆ๋‹ค.

ํ•ด๋‹น ๋‚ด์šฉ์„ ์ •๋ฆฌํ•˜์ž๋ฉด,

  • ์„ ํ˜• ๋ณ€ํ™˜์€ ํ•˜๋‚˜์˜ ๋ฒกํ„ฐ๋ฅผ ๋‹ค๋ฅธ ๊ณต๊ฐ„์œผ๋กœ ์˜ฎ๊ธฐ๋Š” ์—ฐ์‚ฐ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
  • MLP์—์„œ ํ•œ ๋ ˆ์ด์–ด๋ฅผ ๊ฑฐ์ณ์„œ ๋‚˜์˜จ ์ถœ๋ ฅ์€ ์„ ํ˜• ๋ณ€ํ™˜์˜ ๊ฒฐ๊ณผ๋ฌผ์ด๋‹ค.
  • ๋‹ค์‹œ ๋งํ•ด, ํ•œ ๋ ˆ์ด์–ด๋Š” ์ž…๋ ฅ ๋ฒกํ„ฐ (n์ฐจ์› ๊ณต๊ฐ„ ์ƒ์˜ ์ )๋ฅผ ์ƒˆ๋กœ์šด ๊ณต๊ฐ„์œผ๋กœ ์˜ฎ๊ธฐ๋Š” ๊ฒƒ์ด๋‹ค.
    ์ด ๋•Œ ์ฐจ์›์€ ์ถ•์†Œ๋  ์ˆ˜๋„ ์žˆ๊ณ  ๊ทธ๋Œ€๋กœ ์œ ์ง€๋  ์ˆ˜๋„ ์žˆ๋‹ค. (๋ณดํ†ต ํ™•์žฅํ•˜์ง€๋Š” ์•Š์Œ)
    ๊ณต๊ฐ„์„ ์™œ๊ณก์‹œํ‚จ๋‹ค๊ณ  ํ•  ์ˆ˜๋„ ์žˆ์„ ๊ฒƒ์ด๋‹ค.
  • ๊ทธ๋ ‡๊ฒŒ ๋ ˆ์ด์–ด๋ฅผ ๊ณ„์† ๊ฑฐ์น˜๋ฉด์„œ ์ž…๋ ฅ๋œ ๋ฐ์ดํ„ฐ ์ ๋“ค์„ ์ƒˆ๋กœ์šด ๊ณต๊ฐ„์œผ๋กœ ๋ณด๋‚ด๋‹ค๊ฐ€, ์ตœ์ข…์ ์œผ๋กœ ์ถœ๋ ฅ ๋ ˆ์ด์–ด์—์„œ๋Š” ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ์ฐจ์›์ด ๋งŽ์ด ์ค„์–ด๋“  ๋ฐ์ดํ„ฐ ๊ณต๊ฐ„์˜ ์ ๋“ค์„ ๊ทธ๋ฃน์œผ๋กœ ๋‚˜๋ˆ„๊ฑฐ๋‚˜(๋ถ„๋ฅ˜) ์ ๋“ค์„ ๋Œ€ํ‘œํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค (ํšŒ๊ท€).

์•Œ๊ณ ๋Š” ์žˆ์—ˆ์ง€๋งŒ ํ•˜๋‚˜๋กœ ๋ชจ์œผ์ง€ ๋ชปํ•˜๊ณ  ์—ฌ๊ธฐ์ €๊ธฐ ํฉ์–ด์ ธ ์žˆ๋˜ ์‚ฌ์‹ค๋“ค์ด ์—ฐ๊ฒฐ๋˜๋Š” ๋Š๋‚Œ์ด ์ข‹์•˜๋‹ค.

profile
๋ฐ˜๊ฐ€์›Œ์šฉ

0๊ฐœ์˜ ๋Œ“๊ธ€