๐Ÿ“Œ ๋ณธ ๋‚ด์šฉ์€ Michigan University์˜ 'Deep Learning for Computer Vision' ๊ฐ•์˜๋ฅผ ๋“ฃ๊ณ  ๊ฐœ์ธ์ ์œผ๋กœ ํ•„๊ธฐํ•œ ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค. ๋‚ด์šฉ์— ์˜ค๋ฅ˜๋‚˜ ํ”ผ๋“œ๋ฐฑ์ด ์žˆ์œผ๋ฉด ๋ง์”€ํ•ด์ฃผ์‹œ๋ฉด ๊ฐ์‚ฌํžˆ ๋ฐ˜์˜ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.
(Stanford์˜ cs231n๊ณผ ๋‚ด์šฉ์ด ๊ฑฐ์˜ ์œ ์‚ฌํ•˜๋‹ˆ ์ฐธ๊ณ ํ•˜์‹œ๋ฉด ๋„์›€ ๋˜์‹ค ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค)๐Ÿ“Œ

1. Parametric Approach

1) input image : 32x32x3 ํ”ฝ์…€์˜ ์ด๋ฏธ์ง€

2) f(x,W) = ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ (๊ฐ€์žฅ ๋‹จ์ˆœํ•œ ๋ถ„๋ฅ˜๊ธฐ, Neural Network์˜ ๊ธฐ๋ณธ)

  • x = input ์ด๋ฏธ์ง€ ํ”ฝ์…€ ๋ฒกํ„ฐ(32x32x3=3072)
    • ๋ฒกํ„ฐ๋กœ ํ•˜๋Š” ์ด์œ : input data๋Š” ๋ชจ๋‘ ์ฐจ์›, ํฌ๊ธฐ ๋‹ค๋ฅผ์ˆ˜ O โ†’ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ๊ณต๊ฐ„๊ตฌ์กฐ ํŒŒ๊ดด(์ž…๋ ฅ ๋ฐ์ดํ„ฐ ์žฌ๊ตฌ์„ฑ)ํ•˜์—ฌ ํ†ต์ผ๋˜๊ฒŒ inputํ•˜๋ ค๊ณ 
    • W = ๊ฐ€์ค‘์น˜
    • f(x,W) = Wx (๊ธฐ๋ณธ)
    • b = bias (์ถ”๊ฐ€์ ์ธ ๊ฐ€์ค‘์น˜ ์—ญํ• )
      • ์‚ฌ์šฉ ์ด์œ : bias ์—†์œผ๋ฉด ๋ฌด์กฐ๊ฑด ์›์  ์ง€๋‚˜๋Š” ํ•œ๊ณ„ ๊ทน๋ณต, ๋น„์„ ํ˜•์œผ๋กœ ๋งŒ๋“ค์–ด์„œ ๋” ๋ถ„๋ฅ˜ ์ž˜ํ•˜๊ฒŒ ํ•˜๋ ค๊ณ 

3) 10 numbers giving class scores

  • ๊ฐ class(category) 10๊ฐœ ๋ณ„๋กœ ์ ์ˆ˜๋งค๊น€

4) ์˜ˆ์‹œ

  • step1) input image ๋ฒกํ„ฐํ™”
  • step2) ๊ฐ€์ค‘์น˜ ์ ์šฉ + bias ์ ์šฉ

    - b(3,) โ†’ 3: ์ •๋‹ต category ์ˆ˜
    - W(3,4) โ†’ 3: ์ •๋‹ต category ์ˆ˜, 4: input ์ฐจ์› ์ˆ˜



2. ์„ ํ˜• ๋ถ„๋ฅ˜์˜ ์—ฌ๋Ÿฌ ๊ด€์ ๋“ค์„ ํ†ตํ•œ ํŠน์ง•

: ์„ ํ˜• ๋ถ„๋ฅ˜ = ํ–‰๋ ฌ, ๋ฒกํ„ฐ ๊ณฑ์…ˆ์˜ ๊ฐ„๋‹จํ•œ ๋ชจ๋ธ

: ์—ฌ๋Ÿฌ ๊ด€์ ๋“ค๋กœ ์„ ํ˜• ๋ถ„๋ฅ˜์˜ ํŠน์ง•๋“ค์„ ํ™•์ธํ•ด๋ณด์ž.

1) ๋Œ€์ˆ˜(์ˆ˜ํ•™)์  ๊ด€์  (Algebraic viewpoint)

a. ๊ฐœ๋…

  • ์œ„์˜ ์˜ˆ์‹œ์™€ ๊ฐ™์ด ํ–‰๋ ฌ ๋‚ด์  + ๋ฒกํ„ฐํ™”
  • input data๋ฅผ ๋ฒกํ„ฐํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ์ˆ˜ํ•™์  ๊ด€์ ์—์„œ ํ–‰๋ ฌ ๋‚ด์  ๊ณ„์‚ฐ

b. ํŠน์ง•

  • ์˜ˆ์ธก์ด ์„ ํ˜•์ž„
    • ex. bias๊ฐ€ ์—†๋‹ค๊ณ  ์ƒ๊ฐํ•˜๊ณ  f(x,W)๋ณด๋ฉด
      • ์ƒ์ˆ˜ c์— ๋”ฐ๋ผ ์˜ˆ์ธก์ ์ˆ˜ ๋‹ฌ๋ผ์งˆ์ˆ˜๋„(์„ ํ˜•์ด๋ผ ๊ฐ€๋Šฅํ•œ๊ฑฐ)
        - ex.
        • 0.5 * image = ๋ชจ๋“  ํ”ฝ์…€ ์ฑ„๋„ ๊ฐ์†Œ
        • ์˜ˆ์ธก ์ ์ˆ˜๋„ ๋ชจ๋“  ์นดํ…Œ๊ณ ๋ฆฌ์— ๋Œ€ํ•ด 1/2 ๋˜๋Š”๊ฒƒ (์„ ํ˜•์ด๋ผ์„œ)
        • ์ง๊ด€์ X(์˜ˆ์ธก ์ ์ˆ˜๊ฐ€ ๋ณ€๊ฒฝ๋ผ์„œ ์ƒ์ˆ˜ c๊ณฑํ•˜๋Š”๊ฑด ์ง๊ด€X)

c. cf) Bias Trick (์ž˜ ์‚ฌ์šฉX)

  • ๊ฐœ๋…

    • ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์— bias ๋ฒกํ„ฐ ํ†ตํ•ฉ์‹œํ‚ค๊ธฐ
    • ํ†ตํ•ฉ์‹œ์ผœ๋„ ๋ถ„๋ฆฌํ•ด์„œ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ๊ณผ ๋™์ผ ๊ฒฐ๊ณผ ๋„์ถœ
    • input data๊ฐ€ ๊ธฐ๋ณธ ๋ฒกํ„ฐ ๊ฐ€์งˆ๋•Œ ์‚ฌ์šฉ๋จ
    • ์ด ๊ฐœ๋…๋ณด๋‹ค, ๊ทธ๋ƒฅ ๋Œ€์ˆ˜์  ๊ด€์ ์˜ ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ ๋” ์‚ฌ์šฉ ๅคš
  • ์˜ˆ์‹œ

    • W(3,5): 3๊ฐœ์˜ ์ •๋‹ต ์นดํ…Œ๊ณ ๋ฆฌ, 5๊ฐœ์˜ vectorํฌ๊ธฐ (ํ•œ์ค„ ๋Š˜์–ด๋‚˜์„œ)
    • (5,) : ๊ฐ€์ค‘์น˜ ์—ด์ด 1๊ฐœ ๋” ๋Š˜์–ด๋‚˜์„œ ๊ฑ ์˜๋ฏธ์—†์ด 1 ๋ถ™์ด๋Š” ๊ฒƒ
  • ๋‹จ์ 

    • ๊ฐ€์ค‘์น˜์™€ bias๋ฅผ ๋ณ„๋„ ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ ๋ถ„๋ฆฌํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒฝ์šฐ ๋งŽ์Œ (ex. ์ดˆ๊ธฐํ™”, ์ •๊ทœํ™”)



2) ์‹œ๊ฐ์  ๊ด€์  (visual viewpoint)

a. ๊ฐœ๋…

  • Weight์„ input๊ณผ ๊ฐ™์€ ๋ชจ์–‘์œผ๋กœ ์žฌ๊ตฌ์„ฑ
    • bias๋ฅผ ๊ฐ๊ฐ์˜ weight์— ๋ถ™์ด๊ธฐ(์›๋ž˜๋Š” ํ•œ ์ค„์˜ ๋ฒกํ„ฐ๋กœ ๋งŒ๋“ค์—ˆ์Œ)
    • ์ข€ ๋” ์ง๊ด€์ ์œผ๋กœ ์ดํ•ด๊ฐ€๋Šฅ

b. ํŠน์ง•

  • ๊ฐ ์ •๋‹ต ์นดํ…Œ๊ณ ๋ฆฌ๋ณ„๋กœ ํ•˜๋‚˜์˜ template ์กด์žฌ (template matching)
  • ๋ช…ํ™•ํ•œ ๋ถ„๋ฅ˜๊ฐ€ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Œ
    • ์ด๋ฏธ์ง€์˜ context ๋‹จ์„œ์— ๊ฐ•ํ•˜๊ฒŒ ์˜์กด
      = ๋ฐฐ๊ฒฝ์ƒ‰์— ๋”ฐ๋ผ ๋†’์€ ์ ์ˆ˜ ์–ป์„ ์ˆ˜ ์žˆ๊ธฐ์— ๋ช…ํ™•ํ•œ ๋ถ„๋ฅ˜ ์–ด๋ ค์›€
      = ๋ฑ…๊ธฐ, ๊ฐœ, ์‚ฌ์Šด ๊ฐ™์€ ๋ฌผ์ฒด category ์ธ์‹ํ•˜๊ณ  ์‹ถ์œผ๋‚˜, ์‹ค์ œ๋กœ๋Š” input image์˜ ๋” ๋งŽ์€ ์ฆ๊ฑฐ ์‚ฌ์šฉ (๊ฐœ์ฒด ์ž์ฒด๋ณด๋‹ค)
    • ex1. plane template (์ผ๋ฐ˜์ ์œผ๋กœ ํŒŒ๋ž€ ์ด๋ฏธ์ง€)
      • (์ด ๊ฐ€์ค‘์น˜ ๋งคํŠธ๋ฆญ์Šค ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ) ํŒŒ๋ž€์ƒ‰์ด ๋งŽ์€ input image๋Š” plane class์— ๋Œ€ํ•œ ๋†’์€ ์ ์ˆ˜ ๋ฐ›์„ ๊ฒƒ
    • ex2. car template
      • cifar10์—๋Š” red car์ด ๋งŽ์€๊ฑธ ์•Œ์ˆ˜ ์žˆ์Œ (๋…น์ƒ‰, ํŒŒ๋ž€ car ์ธ์‹X)
  • input image์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ๋ณ€์ˆ˜(์ƒ‰, ๋ฐฉํ–ฅ) ์ธ์‹ X
    • ex. ๋‹ค๋ฅธ ๋ฐฉํ–ฅ ๋ณด๋Š” ๋ง์— ๋Œ€ํ•œ template์„ ๋ณ„๋„ ํ•™์Šต ๋ถˆ๊ฐ€ (two head๋กœ ๋‚˜์˜ด)

3) ๊ธฐํ•˜ํ•™์  ๊ด€์  (Geometric viewpoint)

a. single pixel

  • ์•ž์—์„œ ํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋™์ผ
    • ์ž„์˜์˜ ํ”ฝ์…€์„ ํ•˜๋‚˜ ๊ฐ€์ง€๊ณ  score ๊ฒฝ๊ณ„ ๋งŒ๋“œ๋Š” ๊ฒƒ
  • ํ•ด์„
    • value of pixel(15,8,0): ๊ฐœ๋ณ„๊ฐ’ ๋ณ€๊ฒฝ์— ๋”ฐ๋ฅธ ํ”ฝ์…€๊ฐ’ ๋ณ€ํ™”
    • classifier score: ์ด ํ”ฝ์…€์— ๋”ฐ๋ฅธ category๋“ค์˜ ๊ฒฝ๊ณ„์„ 

b. multiple pixel

  • ํŠน์ง•
    • ์ผ์ฐจ์‹์„ ์ดˆํ‰๋ฉด์œผ๋กœ ํ‘œํ˜„ํ•˜์—ฌ 3์ฐจ์›์— ์œ„์น˜์‹œํ‚ด
    • ๊ณ ์ฐจ์› ์œ ํด๋ฆฌ๋””์•ˆ space ์š”๊ตฌ
    • ๋งค์šฐ ๋†’์€ ์ฐจ์›์˜ ๊ณต๊ฐ„์œผ๋กœ ์ด๋ฏธ์ง€ ์ „์ฒด ๊ณต๊ฐ„ ์ทจํ•จ
      • category 1๊ฐœ๋‹น 1๊ฐœ์˜ ์ดˆํ‰๋ฉด
      • W(๊ฐ€์ค‘์น˜ ๊ฐ’)=๊ฐ ์„ ๋ถ„์˜ ๊ธฐ์šธ๊ธฐ (๊ฑ ๊ธฐ์กด 1์ฐจ์‹์„ 3์ฐจ์› ํ•œ๊ฑฐ๋‹ˆ๊นŒ)
    • ์žฅ์ 
      • ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ ์–ด๋–ค category๋ฅผ ์ธ์‹ ๊ฐ€๋Šฅํ•œ์ง€ ํŒŒ์•… ๊ฐ€๋Šฅ
    • ๋‹จ์ 
      • ๊ธฐํ•˜ํ•™์ด ์–ด๋–ป๊ฒŒ ์ž‘์šฉํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ๋ฌผ๋ฆฌ์  ์ง๊ด€ ์•Œ๊ธฐ ์–ด๋ ค์›€ (์šฐ๋ฆฌ์˜ ์ง๊ด€์€ ์ €์ฐจ์›์— ์ต์ˆ™ํ•ด์„œ)
    c. ์„ ํ˜•๋ถ„๋ฅ˜๊ฐ€ ์ž˜ ์•ˆ๋˜๋Š” ๊ฒฝ์šฐ (๊ธฐํ•˜ํ•™์  ๊ด€์ ์—์„œ) โ†’ ๊ฑ ๋ถ„๋ฅ˜์— ํ•œ๊ณ„์žˆ์Œ ์ด์ •๋„
  • ์ฒซ๋ฒˆ์งธ ์˜ˆ์‹œ
    • ์„œ๋กœ ๋‹ค๋ฅธ ์นดํ…Œ๊ณ ๋ฆฌ์— ์†ํ• ๋•Œ
  • ๋‘๋ฒˆ์งธ ์˜ˆ์‹œ
    • ์—ฐ์†์ ์ด์ง€ ์•Š์„๋•Œ
  • ์„ธ๋ฒˆ์งธ ์˜ˆ์‹œ
    • ๋‹ค๋ฅธ mode๋“ค ๊ฐ€์งˆ๋•Œ (ex. ๋ง์ด ๋‹ค๋ฅธ ๋ฐฉํ–ฅ ๋ด„)
      ๊ณ ์ฐจ์› ํ”ฝ์…€ ๊ณต๊ฐ„์—์„œ ์˜ค๋ฅธ์ชฝ ๋ณด๋Š” ๋ง์— ํ•ด๋‹นํ•˜๋Š” ๊ณต๊ฐ„์˜ ์ผ๋ถ€์˜์—ญ์ด ์žˆ๊ณ , ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์„ ๋ณด๋Š” ๋ง์— ํ•ด๋‹นํ•˜๋Š” ์™„์ „ ๋ถ„๋ฆฌ๋œ ๊ณต๊ฐ„ ์˜์—ญ ์žˆ์Œ
  • ํผ์…‰ํŠธ๋ก 
    • ํŠน์ง•
      • ์ตœ์ดˆ์˜ ๊ธฐ๊ณ„ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜

      • ์ด์ง„ ๋ถ„๋ฅ˜ ์‹œ ์‚ฌ์šฉ

      • ์ž…๋ ฅ๊ฐ’+๊ฐ€์ค‘์น˜>์ž„๊ณ„๊ฐ’ = 1 , ๋ฐ˜๋Œ€๋ฉด 0

      • ๋‹จ์ธต ํผ์…‰ํŠธ๋ก : 1๊ฐœ์˜ ์ถœ๋ ฅ๋‰ด๋Ÿฐ, ์„ ํ˜• ๋ถ„๋ฅ˜์—๋งŒ

        • ex. ํผ์…‰ํŠธ๋ก ์ด XORํ•จ์ˆ˜ ์ธ์‹ํ•  ๋ฐฉ๋ฒ•X (= ํ•˜๋‚˜์˜ ์„ ์œผ๋กœ ํŒŒ๋ž€์ƒ‰, ์ดˆ๋ก์ƒ‰ ์˜์—ญ ๋ถ„๋ฅ˜X)
      • ๋‹ค์ธต ํผ์…‰ํŠธ๋ก : ์—ฌ๋Ÿฌ ์€๋‹‰์ธต, ๋น„์„ ํ˜• ๋ถ„๋ฅ˜๋„ ๊ฐ€๋Šฅ




3. Scoreํ•จ์ˆ˜ ์ž‘๋™ ์›๋ฆฌ ํŒŒ์•… ์ค‘์š”์„ฑ

1) ํ•„์š”์„ฑ

  • ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ ์žˆ์œผ๋ฏ€๋กœ , score์˜ˆ์ธก ๊ฐ€๋Šฅ

2) ์•ž์œผ๋กœ ์•Œ์•„์•ผ ๋  ๊ฒƒ

  • Loss function: ์ตœ์ ์˜ W์—…๋ฐ์ดํŠธ ์œ„ํ•ด์„œ
  • Optimization: train dataํ™œ์šฉํ•˜์—ฌ ๊ฐ€๋Šฅํ•œ W๋ชจ๋‘ ๊ฒ€์ƒ‰ํ•˜๊ณ , ์šฐ๋ฆฌ ๋ฐ์ดํ„ฐ์— ์ ํ•ฉํ•œ W์ฐพ๊ธฐ



4. Loss function

1) ๊ฐœ๋…

  • ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์–ผ๋งˆ๋‚˜ ์ž˜ ์ˆ˜ํ–‰ํ•˜๋Š”๊ฐ€
  • ์–ธ์ œ, ์–ด๋–ค ์œ ํ˜•์˜ ๋ชจ๋ธ์ด ์ข‹์€์ง€ ์•Œ๋ ค์คŒ
  • loss ์ž‘์Œ = good classifier loss ํผ = bad classifier
  • = objective function, cost function
  • cf) Negative loss function
    • ์ ์ˆ˜๊ฐ€ ๋†’์„์ˆ˜๋ก โ†’ good classifier

2) ๊ตฌํ˜„ ์‹

a. ์ฒซ๋ฒˆ์งธ ์‹

  • xi = input image
  • yi = ์ •๋‹ต ์นดํ…Œ๊ณ ๋ฆฌ (ex. cat)

b. ๋‘๋ฒˆ์งธ ์‹

  • f(xi, W) = input์— ๊ฐ€์ค‘์น˜ ์ ์šฉํ•œ ํ•จ์ˆ˜
  • yi = ์ •๋‹ต ์นดํ…Œ๊ณ ๋ฆฌ
  • ์ „์ฒด = ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’ ์‚ฌ์ด์˜ badness์ธก์ •

c. ์„ธ๋ฒˆ์งธ ์‹

  • N = data ์ด ๊ฐœ์ˆ˜

โ‡’ ๊ฐ๊ธฐ ๋‹ค๋ฅธ task๋งˆ๋‹ค ๊ฐ๊ธฐ ๋‹ค๋ฅธ ์œ ํ˜•์˜ loss function ์จ์•ผ๋จ

โ‡’ ํ•˜๋‚˜์˜ task์—์„œ๋„ ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ loss function์ด ์žˆ๋Š”๋ฐ, loss function์— ๋”ฐ๋ผ ์†์‹ค ์ •๋„๊ฐ€ ๋‹ฌ๋ผ์ง (5๋ฒˆ. Multiclass SVM Loss๊ฐ€ ๊ทธ ์˜ˆ์‹œ)




5. Multiclass SVM Loss

1) ๊ฐœ๋…

  • ์ •๋‹ต์— ๋†’์€ ์ ์ˆ˜, ์˜ค๋‹ต์— ๋‚ฎ์€ ์ ์ˆ˜

2) ์‹œ๊ฐํ™” ๊ทธ๋ž˜ํ”„

a. margin

  • ์‚ฌ์šฉ ์ด์œ 
    • loss๋‚ฎ์ถฐ์„œ ๊ณผ์ ํ•ฉ ๋‚ฎ์ถ”๊ณ , ์ผ๋ฐ˜ํ™” ๋†’์ž„
      (margin์—†์œผ๋ฉด ๊ทธ๋ƒฅ ๋ฌด์กฐ๊ฑด ํ‹€๋ ธ๋‹ค๊ณ  ํ•ด๋ฒ„๋ ค์„œ loss๊ฐ€ ๋” ๋†’์•„์ง)

b. ์ „์ฒด ํ•ด์„

  • ์ •๋‹ต๊ณผ ์˜ค๋‹ต์˜ category score๋น„๊ต
  • ์„ ํ˜•์  ๊ฐ์†Œ
  • ์ •๋‹ต > ์˜ค๋‹ต+margin
  • hinge loss๋ผ๊ณ  ๋ถˆ๋ฆผ

c. ์ˆ˜์‹ (๊ทธ๋ž˜ํ”„๋ฅผ ์‹์œผ๋กœ ํ‘œํ˜„)

  • ์ฒซ๋ฒˆ์งธ ์‹
    • xi=input image
    • yi=์ •๋‹ต ์นดํ…Œ๊ณ ๋ฆฌ
  • ๋‘๋ฒˆ์งธ ์‹
    • linear classification ๊ฒฐ๊ณผ
  • ์„ธ๋ฒˆ์งธ ์‹
    • ์ •๋‹ต class โ‰ฅ ์˜ค๋‹ต class+1 โ‡’ loss=0
    • ๋‚˜๋จธ์ง€ โ‡’ ์„ ํ˜•

3) ์˜ˆ์‹œ ๊ณ„์‚ฐ

  • ์ „์ฒด loss๊ฐ’ = ๋ชจ๋“  lossํ•ฉ / ์นดํ…Œ๊ณ ๋ฆฌ ๊ฐœ์ˆ˜

4) Multiclass SVM Loss Question

  • Q. car(์˜ณ๊ฒŒ ๋ถ„๋ฅ˜๋œ ๊ฒฝ์šฐ)์˜ ์ด๋ฏธ์ง€ ์ ์ˆ˜๊ฐ€ ์กฐ๊ธˆ ๋ฐ”๋€Œ๋ฉด ์ „์ฒด loss๊ฐ€ ์–ด๋–ป๊ฒŒ ๋˜๋Š”๊ฐ€?
    A. ์—ฌ์ „ํžˆ ์†์‹ค =0
    • ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋ถ„๋ฅ˜ ๋˜๋ฉด, ์˜ˆ์ธก์ ์ˆ˜๊ฐ€ ์•ฝ๊ฐ„ ๋‹ฌ๋ผ์ ธ๋„ ์†์‹ค์— ํฐ ์˜ํ–ฅX
    • ์ •๋‹ต๊ณผ ์˜ค๋‹ต์˜ ์ฐจ์ด๊ฐ€ margin๋ณด๋‹ค ํฌ๋ฉด ์ •๋‹ต
  • Q. loss๊ฐ’์˜ ๊ฐ€๋Šฅํ•œ min, max๊ฐ’์€?
    A. min =0 ; ์ •๋‹ต์ ์ˆ˜๊ฐ€ ์˜ค๋‹ต์ ์ˆ˜๋ณด๋‹ค ๋†’์„๋•Œ
    max = ๋ฌดํ•œ๋Œ€; ์ •๋‹ต์ ์ˆ˜๊ฐ€ ์˜ค๋‹ต์ ์ˆ˜๋ณด๋‹ค ํ›จ ๋‚ฎ์„๋•Œ
  • Q. ๋ชจ๋“  ์ ์ˆ˜๊ฐ€ random์ผ๋•Œ, loss๊ฐ€ ์–ด๋–ป๊ฒŒ ๋˜๋Š”๊ฐ€?
    A. ์ด Loss๊ฐ’ = c-1์ด ๋จ.
    ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์ด random์œผ๋กœ ์ดˆ๊ธฐํ™”๋˜๋ฉด, ์˜ˆ์ธก์ ์ˆ˜๋„ ๊ฐ ์นดํ…Œ๊ณ ๋ฆฌ๋ณ„๋กœ random์ผ๊ฒƒ
    • ex. ๋ชจ๋‘ small random value์ผ๋•Œ, ๋ชจ๋“  score(์˜ค๋‹ต, ์ •๋‹ต)์ด ๊ฑฐ์˜ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ์˜ค์ฐจ๊ฐ€ 0์— ๊ฐ€๊นŒ์šด ๊ฒฝ์šฐ
      โ†’ ํ•˜๋‚˜์— ๋Œ€ํ•ด Loss ๊ฐ’ = small value - small value + 1(margin)
      โ‡’ ์ด c-1 ๊ฐœ ์žˆ์œผ๋‹ˆ, Loss๊ฐ’์€ c-1์ด ๋˜๋Š”๊ฒƒ
    • Loss๊ฐ’ > c-1์ด๋ฉด, ๋žœ๋ค๋ณด๋‹ค ๋ชปํ•œ ์„ฑ๋Šฅ์ธ๊ฒƒ (๋žœ๋ค์œผ๋กœ ๋„ฃ์€๊ฒƒ๋ณด๋‹ค ์†์‹ค์ด ํฌ๋‹ˆ๊นŒ)
    • ๋ชจ๋“  ์ ์ˆ˜ ๋žœ๋ค์ผ๋•Œ, ์˜ˆ์ƒํ•œ ๊ฒƒ๊ณผ ๋‹ค๋ฅธ ์†์‹ค ๋ฐœ์ƒ์‹œ ๋ฒ„๊ทธ ํ™•๋ฅ  ๋†’์•„์ง
      • ์ƒˆ ์†์‹คํ•จ์ˆ˜ ๊ตฌํ˜„ ๋ฐ ํ•™์Šต (โ‡’ ์ž‘์€ ๋‚œ์ˆ˜๊ฐ’์œผ๋กœ ์–ด๋–ค ์ข…๋ฅ˜ ์†์‹ค์“ธ๊ฑด์ง€ ์˜ˆ์ƒ)
  • Q. ๋ชจ๋“  class์— ๋Œ€ํ•ด sum์ด ์ ์šฉ๋œ๋‹ค๋ฉด? (์ •๋‹ต๊ฐ’์„ ํฌํ•จํ•ด์„œ Loss๊ตฌํ•˜๊ธฐ) A. ๋ชจ๋“  ์†์‹ค์— +1 (max(0,1)=1) ํ•˜๋Š” ๊ฒƒ = ๋ถ„๋ฅ˜๊ธฐ์— ๋Œ€ํ•ด ๋™์ผ ์„ ํ˜ธ๋„ ๋‚˜ํƒ€๋ƒ„ = ๋ชจ๋“  ์†์‹ค์€ 1์˜ ๊ฐ’์œผ๋กœ ๋ถ€ํ’€๋ ค์ง€์ง€๋งŒ, ์ƒ๋Œ€์  ํ• ๋‹น์ด ์žˆ๊ธฐ์— ์ˆœ์„œ ๋ณ€๊ฒฝX
  • Q. sum๋Œ€์‹  ํ‰๊ท  ๋‚ด์„œ ์†์‹ค ๊ตฌํ•œ๋‹ค๋ฉด?
    A. ๊ฐ€์ค‘์น˜ matrix = ๊ธฐ์กด๊ณผ ๋™์ผ
    loss ๊ฐ’ = ๊ธฐ์กด๋ณด๋‹ค ์ž‘์•„์ง (ํ‰๊ท ๋‚ด์„œ)
    = (๋ชจ๋“  Loss) * (c-1)์ด ๋˜๋Š” ๊ฒƒ (์™œ์ธ์ง„ ๋ชจ๋ฅด๊ฒ ์Œ)
  • Q. ์ œ๊ณฑ์„ ์ทจํ•œ๋‹ค๋ฉด?
    A. ๋น„์„ ํ˜• ๋ฐฉ์‹์œผ๋กœ loss function of weight์ด ์„ ํ˜ธ๋„๋ฅผ ์—„์ฒญ ๋ฐ”๊ฟ€๊ฒƒ
  • Q. ์ด Loss๊ฐ’์„ ๊ตฌํ• ๋•Œ, L=0์ด๋ผ๋ฉด ๊ทธ๋ ‡๊ฒŒ ๋งŒ๋“œ๋Š” W๊ฐ€ ์œ ์ผํ•œ๊ฐ€?
    A. No, 2W๋„ L=0์ด ๋  ์ˆ˜ ์žˆ๋‹ค. = ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ ์„ ํ˜•์ด๊ธฐ์—, ๋ชจ๋“  ์˜ˆ์ธก์ ์ˆ˜๋„ 2๋ฐฐ๊ฐ€ ๋จ = ์—ฌ์ „ํžˆ margin ์ดˆ๊ณผ โ‡’ Loss =0
    โ‡’ ๊ทธ๋ ‡๋‹ค๋ฉด ๋™์ผ ์†์‹ค 2๊ฐ€์ง€ W, 2W์ค‘์— ๋ญ˜ ์„ ํƒ?
    โ€”> Regularization์œผ๋กœ ํ•ด๊ฒฐ




6. Regularization

1) ๊ฐœ๋…

  • ์ž˜ ์ˆ˜ํ–‰๋˜๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๋งž์„œ์‹ธ์šฐ๋Š” ๋ชฉ์ ํ•จ์ˆ˜ or ์ „์ฒด ํ•™์Šต ๋ชฉํ‘œ์— ์ถ”๊ฐ€

  • Data loss = ๊ธฐ์กด loss = average loss
    • ์–ผ๋งˆ๋‚˜ train data ์ž˜ ์˜ˆ์ธกํ•˜๋Š”์ง€
  • Regularization
    • train data์— ํฌํ•จ X
    • train data์—์„œ ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€, ๋ชจ๋ธ์— ์‹œ๋„ํ•˜๋Š” ๊ฒƒ ์™ธ์— ๋‹ค๋ฅธ ์ž‘์—… ์ œ๊ณต
  • Regularization Strength
    • ๋ชจ๋ธ์ด ์–ผ๋งˆ๋‚˜ ์ž˜ ์˜ˆ์ธกํ•˜๋Š”์ง€ ์ ˆ์ถฉ์  ์ œ์–ด
    • strength ๋†’์œผ๋ฉด โ†’ ๊ณผ์ ํ•ฉ ๊ฐ์†Œ (ํ‹€๋ฆฐ ๊ฐ’์„ ์ข€ ๋ด์คŒ)

2) ์˜ˆ์‹œ

3) ์‚ฌ์šฉ ๋ชฉ์ 

  • ํ›ˆ๋ จ error๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ์ž‘์—…์—์„œ ์ธ๊ฐ„์˜ ์ฃผ๊ด€ ๊ฐœ์ž… ok
  • ๊ณผ์ ํ•ฉ ํ”ผํ•˜๊ธฐ โ†’ ์ผ๋ฐ˜ํ™” ๋” ์ž˜ํ•˜๊ธฐ
  • ๊ณก๋ฅ  ์ถ”๊ฐ€ํ•˜๋ฉด์„œ ์ตœ์ ํ™” ๋” ์ž˜ํ•˜๊ธฐ

4) ํŠน์ง•

  • (W์— ๋Œ€ํ•ด) ์„ ํ˜ธ๋„ ํ‘œ์ถœ (์•ž์—์„œ W or 2W ๋ญ˜๊ณ ๋ฅผ์ง€ ํ•ด๊ฒฐ)

    • lossํ•จ์ˆ˜ + (L1, L2)์ •๊ทœํ™” ์ถ”๊ฐ€ํ•˜๋ฉด ์ถ”๊ฐ€์ ์ธ ์„ ํ˜ธ๋„ ํ‘œํ˜„๊ฐ€๋Šฅ

      = W1, W2์ค‘ ์šฐ๋ฆฌ๊ฐ€ ์„ ํ˜ธํ•˜๋Š”๊ฒŒ ๋ญ”์ง€ ๋ชจ๋ธ์— ์•Œ๋ฆด์ˆ˜O

    • ex. L2 regularization์ด w1์„ ํ˜ธ? w2์„ ํ˜ธ?

      • ํ•ด์„
        • w1์— L2์ ์šฉ โ†’ 1

          w2์— L2์ ์šฉ โ†’ 1/4

          =โ‡’ L2๋Š” Loss๊ฐ€ ๋” ๋‚ฎ์€ w2๋ฅผ ์„ ํ˜ธํ•œ๋‹ค๋Š”๊ฑธ ์•Œ ์ˆ˜ ์žˆ์Œ

  • ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€

    • ํ•ด์„
      • f1: train data๋ฅผ ์™„๋ฒฝํžˆ ์ปค๋ฒ„ํ•˜์ง€๋งŒ, ๋ณด์ด์ง€ ์•Š๋Š” data์— ๋Œ€ํ•ด์„  ์„ฑ๋Šฅ ๋–จ์–ด์ง
      • f2: ์„ ํ˜•์ด๋ผ ๋” simple ํ•˜์ง€๋งŒ, ๋ณด์ด์ง€ ์•Š๋Š” data์— ๋Œ€ํ•ด ์„ฑ๋Šฅ ๋†’์Œ




7. Cross entropy Loss

1) ๊ฐœ๋…

  • SVM Loss๋ณด๋‹ค ์‹ ๊ฒฝ๋ง ํ•™์Šต์‹œ ๋” ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ
  • SVM Loss : ์˜ˆ์ธก๋œ ์ ์ˆ˜์— ๋Œ€ํ•œ ํ•ด์„ ์ œ๊ณตX, ๊ฑ ๋Œ€์†Œ๋น„๊ต(์ •๋‹ต์ ์ˆ˜>์˜ค๋‹ต์ ์ˆ˜๋งŒ) ๊ฐ€๋Šฅ Cross entropy Loss: ์˜ˆ์ธก ์ ์ˆ˜์— ๋Œ€ํ•œ ํ™•๋ฅ ์  ํ•ด์„ ์ œ๊ณตO

2) ์ ์šฉ ๋ฐฉ๋ฒ•

  • Step1: classifier์— ์˜ํ•ด raw score ๋‚˜์˜ด
  • step2: ์ง€์ˆ˜ํ•จ์ˆ˜ํ™”(exp)
    • ๋ชจ๋“  ๊ฒฐ๊ณผ๊ฐ’๋“ค์ด 0์ด์ƒ(์Œ์ˆ˜X)
  • step3: ์ •๊ทœํ™” (normalize) โ†’ softmax๋กœ
    • ์ •๊ทœํ™” ํ›„ ํ™•๋ฅ  ๋”ํ•˜๋ฉด 1
    • softmax ์‚ฌ์šฉ ์ด์œ 
      • maxํ•จ์ˆ˜์— ๋Œ€ํ•œ ๋ฏธ๋ถ„๊ฐ€๋Šฅํ•œ ๊ทผ์‚ฌ์—ฌ์„œ
      • ๋ฏธ๋ถ„๊ฐ€๋Šฅํ•˜๊ธฐ ์›ํ• ๋•Œ ์‚ฌ์šฉ(๋ฏธ๋ถ„๊ฐ€๋Šฅํ•ด์•ผ ํ•™์Šต ๊ฐ€๋Šฅํ•˜์—ฌ W updateํ•จ)
      • ์ „์ฒด ์ค‘์˜ ๋น„์ค‘ ํ™•์ธ ๊ฐ€๋Šฅ
  • step4: Loss๊ณ„์‚ฐ
    • log์“ฐ๋Š” ์ด์œ : ๋Œ€์†Œ๊ด€๊ณ„ ์•ˆ๋ณ€ํ•ด์„œ
    • log์•ž์— - ๋ถ™์ด๋Š” ์ด์œ : ์ตœ๋Œ€ ์šฐ๋„ ์ถ”์ • ์ธ์Šคํ„ด์Šค์—ฌ์„œ : log์ทจํ•˜๋ฉด ์ˆซ์ž๊ฐ€ ํด์ˆ˜๋ก ์ž‘์•„์ง, ๊ทผ๋ฐ loss๋Š” ์ˆซ์ž๊ฐ€ ํด์ˆ˜๋ก ์ปค์ง€๊ณ  ์ž‘์„์ˆ˜๋ก ์ž‘์•„์ ธ์•ผ ํ•ด์„œ -๊ณฑํ•จ (์†์‹ค์ด ์ž‘์•„์ ธ์•ผ ๋˜๋‹ˆ๊นŒ = GD๊ฐ€ ์ž‘์•„์ ธ์•ผ๋ผ์„œ)
  • step5: ์ •๋‹ต ํ™•๋ฅ ๊ณผ์˜ ๋น„๊ต
    • ๊ณต์‹1: KL Divergence

3) Question

  • Q. Cross entropy Loss์—์„œ min, max๋Š”?
    A. min=0 โ†’ target๋ถ„ํฌ๊ฐ€ 0๊ณผ 1์ผ๋•Œ, ์˜ˆ์ธก๊ณผ ํƒ€๊ฒŸ ๋ถ„ํฌ๊ฐ€ ๋–จ์–ด์ ธ์žˆ์„๋•Œ ๊ฐ€๋Šฅ max=๋ฌดํ•œ๋Œ€
  • Q. ๋ชจ๋“  ์ ์ˆ˜๋“ค์ด ์ž‘์€ random์ผ๋•Œ, Loss๋Š”?
    A. -log(c)
    • ๊ท ์ผํ•œ ์ ์ˆ˜๋ถ„ํฌ ์˜ˆ์ธก โ†’ softmax โ†’ ์˜ˆ์ธกํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ c๊ฐœ category์— ๋Œ€ํ•ด ๊ท ์ผ (๊ฐ๊ฐ 1/c์ธ๊ฒƒ) โ†’ -log(c)
profile
๐Ÿ–ฅ๏ธ

1๊ฐœ์˜ ๋Œ“๊ธ€

comment-user-thumbnail
2023๋…„ 8์›” 9์ผ

์ข‹์€ ์ •๋ณด ์–ป์–ด๊ฐ‘๋‹ˆ๋‹ค, ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๋‹ต๊ธ€ ๋‹ฌ๊ธฐ