Contextual Transformer Networks for Visual Recognition_3

๊น€ํ˜„์šฐยท2025๋…„ 2์›” 25์ผ
0

thesis

๋ชฉ๋ก ๋ณด๊ธฐ
5/9

Contextual Transformer Networks for Visual Recognition_3

4 EXPERIMENTS

๐Ÿ“Œ ImageNet์—์„œ CoTNet ์ด๋ฏธ์ง€ ์ธ์‹ ์‹คํ—˜ ์ •๋ฆฌ

1๏ธโƒฃ ์‹คํ—˜ ๊ฐœ์š”

โœ… ๋ฐ์ดํ„ฐ์…‹: ImageNet

  • 1,000๊ฐœ ํด๋ž˜์Šค(Class)
  • 128๋งŒ ๊ฐœ ํ•™์Šต ์ด๋ฏธ์ง€ (Training Images)
  • 50,000๊ฐœ ๊ฒ€์ฆ ์ด๋ฏธ์ง€ (Validation Images)
  • โœ… ํ‰๊ฐ€ ๋ฐฉ์‹: Top-1 & Top-5 ์ •ํ™•๋„ ์ธก์ •
  • Top-1 ์ •ํ™•๋„: ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ 1์ˆœ์œ„ ํด๋ž˜์Šค๊ฐ€ ์ •๋‹ต๊ณผ ์ผ์น˜ํ•  ํ™•๋ฅ 
  • Top-5 ์ •ํ™•๋„: ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ์ƒ์œ„ 5๊ฐœ ํด๋ž˜์Šค ์ค‘ ํ•˜๋‚˜๋ผ๋„ ์ •๋‹ต์ด ํฌํ•จ๋  ํ™•๋ฅ 

โœ… ํ•™์Šต ๋ฐฉ์‹: ๊ธฐ๋ณธ ํ•™์Šต ์„ค์ •(Default Setup) vs. ๊ณ ๊ธ‰ ํ•™์Šต ์„ค์ •(Advanced Setup)

  • ๊ธฐ๋ณธ ํ•™์Šต (Default Training Setup) โ†’ ๊ธฐ์กด CNN ๋ชจ๋ธ(ResNet, ResNeXt, SENet ๋“ฑ)์—์„œ ์‚ฌ์šฉํ•œ ์ „ํ†ต์ ์ธ ๋ฐฉ์‹
  • ๊ณ ๊ธ‰ ํ•™์Šต (Advanced Training Setup) โ†’ ์ตœ์‹  ๋ฐฑ๋ณธ(ResNeSt, EfficientNet ๋“ฑ)๊ณผ์˜ ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•œ ๊ฐ•ํ™”๋œ ํ•™์Šต ์„ค์ •

2๏ธโƒฃ ๊ธฐ๋ณธ ํ•™์Šต ์„ค์ • (Default Training Setup)

โœ… ๊ธฐ์กด CNN(ResNet, ResNeXt, SENet ๋“ฑ)์—์„œ ์‚ฌ์šฉํ•œ ํ‘œ์ค€์ ์ธ ํ•™์Šต ๋ฐฉ์‹

  • ๋„คํŠธ์›Œํฌ๋ฅผ ์•ฝ 100 Epoch ๋™์•ˆ ํ•™์Šต
  • ๊ธฐ๋ณธ์ ์ธ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ(Preprocessing)๋งŒ ์ˆ˜ํ–‰

โœ… ๊ธฐ๋ณธ ์ด๋ฏธ์ง€ ์ „์ฒ˜๋ฆฌ (Standard Image Preprocessing)

  1. ์ž…๋ ฅ ์ด๋ฏธ์ง€๋Š” 224ร—224 ํฌ๊ธฐ๋กœ ํฌ๋กญ(Crop, ์ž๋ฅด๊ธฐ)
  2. ๋žœ๋ค ํฌ๋กญ(Random Crop) โ†’ ๋‹ค์–‘ํ•œ ์œ„์น˜์—์„œ ์ž๋ฆ„
  3. ์ˆ˜ํ‰ ๋’ค์ง‘๊ธฐ(Horizontal Flip) โ†’ 50% ํ™•๋ฅ ๋กœ ์ขŒ์šฐ ๋ฐ˜์ „
    ์ถ”๊ฐ€์ ์ธ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(Augmentation) ์—†์Œ

โœ… ๊ธฐ๋ณธ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •

  • End-to-End ํ•™์Šต(์ฒ˜์Œ๋ถ€ํ„ฐ ๋๊นŒ์ง€ ํ•œ๊บผ๋ฒˆ์— ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹)
  • SGD(ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•) + ๋ชจ๋ฉ˜ํ…€ 0.9 ์ ์šฉ (๋” ๋น ๋ฅด๊ณ  ์•ˆ์ •์ ์ธ ํ•™์Šต)
    • Momentum: ํ•™์Šตํ•  ๋•Œ, ์ด์ „ ์—…๋ฐ์ดํŠธ ๋ฐฉํ–ฅ์„ ์ผ๋ถ€ ์œ ์ง€ํ•˜์—ฌ ํ•™์Šต์„ ๋” ๋น ๋ฅด๊ณ  ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์ง„ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ๋ผ๋ฒจ ์Šค๋ฌด๋”ฉ(Label Smoothing) 0.1 ์ ์šฉ (๋ชจ๋ธ์˜ ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€)
  • ๋ฐฐ์น˜ ํฌ๊ธฐ(Batch Size) = 512
    • 8๊ฐœ์˜ GPU๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ณ‘๋ ฌ ํ•™์Šต(Parallel Training)
    • ๋ณ‘๋ ฌ ํ•™์Šต์„ ํ•˜๋ฉด ๋” ํฐ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์–ด ํ•™์Šต ์†๋„ ํ–ฅ์ƒ

โœ… ํ•™์Šต๋ฅ  ์Šค์ผ€์ค„๋ง (Learning Rate Scheduling)

  • ์ฒซ 5 Epoch ๋™์•ˆ ํ•™์Šต๋ฅ ์„ 0์—์„œ 0.1ร— 256/B ๊นŒ์ง€ ์„ ํ˜•์ ์œผ๋กœ ์ฆ๊ฐ€ (Warm-up)
  • ์ดํ›„ Cosine Schedule์„ ์‚ฌ์šฉํ•˜์—ฌ ์ ์ง„์ ์œผ๋กœ ํ•™์Šต๋ฅ  ๊ฐ์†Œ

โœ… ์ง€์ˆ˜ ์ด๋™ ํ‰๊ท  (Exponential Moving Average, EMA) ์ ์šฉ

  • ๊ฐ€์ค‘์น˜ 0.9999๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต ์ค‘ ๋ชจ๋ธ์„ ์ ์ง„์ ์œผ๋กœ ์—…๋ฐ์ดํŠธ

3๏ธโƒฃ ๊ณ ๊ธ‰ ํ•™์Šต ์„ค์ • (Advanced Training Setup)

โœ… ์ตœ์‹  ๋ฐฑ๋ณธ(ResNeSt, EfficientNet, LambdaNetworks ๋“ฑ)๊ณผ ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด ๊ฐ•ํ™”๋œ ํ•™์Šต ์„ค์ • ์ ์šฉ
โœ… 350 Epoch๊นŒ์ง€ ํ•™์Šต (๊ธฐ๋ณธ ์„ค์ • ๋Œ€๋น„ 3.5๋ฐฐ ๋” ๋งŽ์€ Epoch ์ง„ํ–‰)
โœ… ํ–ฅ์ƒ๋œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• & ์ •๊ทœํ™” ์ ์šฉ
โœ… ์ถ”๊ฐ€๋œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ• (Data Augmentation)

  • RandAugment โ†’ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ๋ณ€ํ˜• ์ ์šฉ
  • Mixup โ†’ ๋‘ ๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ์„ž์–ด์„œ ํ•™์Šต

โœ… ์ถ”๊ฐ€๋œ ์ •๊ทœํ™” ๊ธฐ๋ฒ• (Regularization)

  • Dropout ์ ์šฉ โ†’ ์ผ๋ถ€ ๋‰ด๋Ÿฐ์„ ๋ฌด์ž‘์œ„๋กœ ๋น„ํ™œ์„ฑํ™”ํ•˜์—ฌ ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€
  • DropConnect ์ ์šฉ โ†’ ๊ฐ€์ค‘์น˜ ์ผ๋ถ€๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๋น„ํ™œ์„ฑํ™”ํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒ

๐Ÿ“Œ ์ตœ์ข… ์ •๋ฆฌ

โœ… ImageNet ๋ฐ์ดํ„ฐ์…‹์—์„œ CoTNet์„ ํ•™์Šตํ•˜์—ฌ ์„ฑ๋Šฅ ๊ฒ€์ฆ
โœ… ๊ธฐ๋ณธ ํ•™์Šต(Default Setup)์—์„œ๋Š” ๊ธฐ์กด CNN ๋ชจ๋ธ๊ณผ ๋™์ผํ•œ ์กฐ๊ฑด์—์„œ ์‹คํ—˜ ์ง„ํ–‰ (100 Epoch, ๊ธฐ๋ณธ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ์ ์šฉ)
โœ… ๊ณ ๊ธ‰ ํ•™์Šต(Advanced Setup)์—์„œ๋Š” ์ตœ์‹  ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด 350 Epoch + ์ถ”๊ฐ€์ ์ธ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(Augmentation) ๋ฐ ์ •๊ทœํ™”(Regularization) ์ ์šฉ
โœ… CoTNet์€ ๊ธฐ์กด CNN๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ตœ์‹  ๋ฐฑ๋ณธ ๋ชจ๋ธ(ResNeSt, EfficientNet)๊ณผ๋„ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๋„๋ก ํ•™์Šต๋จ

Performance Comparison (์„ฑ๋Šฅ ๋น„๊ต)

ImageNet ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ธฐ์กด ์ตœ์‹  ๋น„์ „ ๋ฐฑ๋ณธ๋“ค๊ณผ CoTNet์„ ๋น„๊ตํ•œ ์„ฑ๋Šฅ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•œ๋‹ค.
๋น„๊ต ์‹คํ—˜์€ ๋‘ ๊ฐ€์ง€ ํ•™์Šต ์„ค์ •(Default Training Setup, Advanced Training Setup)์—์„œ ์ˆ˜ํ–‰๋˜์—ˆ๋‹ค.

๊ธฐ๋ณธ ํ•™์Šต ์„ค์ • (Default Training Setup) ์„ฑ๋Šฅ ๋น„๊ต

โœ… CoTNet-50 & CoTNeXt-50์€ ๊ธฐ์กด CNN ๋ฐฑ๋ณธ(ResNet-50, ResNeXt-50)๋ณด๋‹ค ๋†’์€ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋ก
โœ… SE-ResNeXt-50, LambdaResNet-50๊ณผ ๊ฐ™์€ ์ตœ์‹  ๋ฐฑ๋ณธ๋ณด๋‹ค๋„ ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜
โœ… FLOPs(์—ฐ์‚ฐ๋Ÿ‰)๊ฐ€ ์ ์œผ๋ฉด์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ โ†’ ํšจ์œจ์ ์ธ ๋ชจ๋ธ
โœ… EMA ์ ์šฉ(CoTNeXt-50*) ์‹œ ์„ฑ๋Šฅ์ด ๋”์šฑ ํ–ฅ์ƒ๋จ

Table 4: ๊ณ ๊ธ‰ ํ•™์Šต ์„ค์ • (Advanced Training Setup) ์„ฑ๋Šฅ ๋น„๊ต

โœ… ๊ณ ๊ธ‰ ํ•™์Šต ์„ค์ •์—์„œ๋„ CoTNet ๊ณ„์—ด(SE-CoTNetD-50, SE-CoTNetD-101)์ด ๊ธฐ์กด ResNet, ResNeXt๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜
โœ… EfficientNet, Swin Transformer์™€ ๊ฐ™์€ ์ตœ์‹  ๋ฐฑ๋ณธ๊ณผ ๋น„๊ตํ•ด๋„ ์„ฑ๋Šฅ์ด ๋” ๋›ฐ์–ด๋‚จ
โœ… Transformer ๊ณ„์—ด(Swin, XCiT)์€ ์„ฑ๋Šฅ์€ ์ข‹์ง€๋งŒ ์—ฐ์‚ฐ๋Ÿ‰(FLOPs)์ด ๋†’์•„ ์†๋„๊ฐ€ ๋А๋ฆผ โ†’ CoTNet์€ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ๊นŒ์ง€ ๋›ฐ์–ด๋‚จ

Table 5: CoT ๋ธ”๋ก์˜ ๋ฌธ๋งฅ ์ •๋ณด ํ™œ์šฉ ๋ฐฉ์‹์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ๋น„๊ต

โœ… ์ •์  ๋ฌธ๋งฅ ์ •๋ณด(Static Context)๋งŒ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ ์ •ํ™•๋„๊ฐ€ ๋‚ฎ์Œ
โœ… ๋™์  ๋ฌธ๋งฅ ์ •๋ณด(Dynamic Context)๋งŒ ์‚ฌ์šฉํ•ด๋„ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋จ
โœ… ์ •์ +๋™์  ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ์ง์ ‘ ๊ฒฐํ•ฉ(Concatenate)ํ•˜๋Š” ๋ฐฉ์‹์ด ๊ฐ€์žฅ ํšจ๊ณผ์ 
โœ… ์ฆ‰, CoT ๋ธ”๋ก์—์„œ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ์ตœ์ ํ™”ํ•˜์—ฌ ์ ์šฉํ•œ ๊ฒƒ์ด CoTNet์˜ ๋†’์€ ์„ฑ๋Šฅ์„ ๋งŒ๋“œ๋Š” ํ•ต์‹ฌ ์š”์ธ!

Fig. 3: ๊ธฐ๋ณธ ํ•™์Šต ์„ค์ •์—์„œ ์ถ”๋ก  ์†๋„ vs. ์ •ํ™•๋„ ๋น„๊ต

โœ… SE-CoTNetD-50, SE-CoTNetD-101์ด ๊ฐ€์žฅ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•˜๋ฉด์„œ๋„ ์ถ”๋ก  ์‹œ๊ฐ„์ด ๋น ๋ฆ„
โœ… ResNet-50, ResNet-101์€ ์ถ”๋ก  ์†๋„๋Š” ๋น ๋ฅด์ง€๋งŒ ์ •ํ™•๋„๊ฐ€ ๋‚ฎ์Œ
โœ… LambdaResNet, SAN19 ๋“ฑ์˜ ์ตœ์‹  ๋ชจ๋ธ๋ณด๋‹ค๋„ CoTNet ๊ณ„์—ด์˜ ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜

๐Ÿ“Œ ์ฆ‰, CoTNet ๊ณ„์—ด(SE-CoTNetD-50, SE-CoTNetD-101)์ด ๊ธฐ์กด ResNet, ResNeXt๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋” ๋›ฐ์–ด๋‚˜๊ณ , ์ตœ์‹  ๋ฐฑ๋ณธ(LambdaResNet, SAN19)๋ณด๋‹ค๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•จ! ๐Ÿš€

Fig. 4: ๊ณ ๊ธ‰ ํ•™์Šต ์„ค์ •์—์„œ ์ถ”๋ก  ์†๋„ vs. ์ •ํ™•๋„ ๋น„๊ต

โœ… SE-CoTNetD-152(320)๊ฐ€ ์ตœ๊ณ  ์ •ํ™•๋„(84.6%)๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ ๊ธฐ์กด ๋ชจ๋ธ๋“ค์„ ์••๋„
โœ… Swin Transformer, XCiT ๋“ฑ ์ตœ์‹  Transformer ๋ชจ๋ธ๋ณด๋‹ค๋„ ์ •ํ™•๋„๊ฐ€ ๋†’์Œ
โœ… ResNet-50, ResNeXt-50 ๋“ฑ ๊ธฐ์กด CNN ๋ชจ๋ธ๋“ค์€ ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ๋ณด์ด์ง€๋งŒ ์ •ํ™•๋„๊ฐ€ ๋‚ฎ์Œ

๐Ÿ“Œ ์ฆ‰, CoTNet ๊ณ„์—ด์ด ๊ธฐ์กด CNN๋ณด๋‹ค ๋†’์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜๋ฉด์„œ๋„ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ์œ ์ง€ํ•จ! ๐Ÿš€

0๊ฐœ์˜ ๋Œ“๊ธ€