[23/11/06] 의사결정 가이드 /. 비전 트랜스포머가 CNN보다 뛰어날까? / 이미지 생성 모델도 데이터셋의 '품질'이 중요하다

이카루스·2023년 11월 6일
0

읽을거리

목록 보기
14/29
post-thumbnail

1. 의사결정 가이드

https://blog.naver.com/learning-crew/223256586369

  1. 의사결정을 위한 충분한 시간을 확보하고, 불필요한 고민으로부터 집중력을 보호하는 방법입니다.
  2. 결정을 내려서는 안 되는 상황을 인지하고, 그러한 때에 결정을 유보하는 방법입니다.
  • 의사결정을 내리는 순간은 자신의 생각이 옳다는 확신을 가질 수 있을 때여야 합니다.
  1. 의사결정의 중요도를 판단하고, 덜 중요한 결정에 에너지를 낭비하지 않도록 하는 전략입니다.ㅇ
  2. 결정에 영향을 미치는 다양한 요소를 인식하고, 이를 바탕으로 정보에 근거한 결정을 내리는 방법입니다.
  3. 의사결정 전에 테스트를 실시하여, 가능한 결과를 미리 경험하는 방법입니다.
  4. 자신의 가치관과 기준을 설정하고 이를 의사결정 과정에 적용하는 것의 중요성입니다.
  5. 다른 사람의 경험과 관점을 구하여, 의사결정에 도움을 받는 방법과 그 한계를 이해하는 것입니다.
  6. 자신이 진정으로 원하는 것에 귀 기울여, 본능과 욕구를 이해하는 과정입니다.
  7. 스트레스와 불안을 관리하고, 의사결정 과정에서 이를 최소화하는 방법입니다.
  8. 실패한 결정을 통해 학습하고, 목표가 아닌 실행 전략을 조정하는 능력의 중요성을 강조합니다.
    -빠르기 실패를 인정하고 수정한 다음에 다음 계속 나아가야합니다. 핵심은 항상 목표를 향해 꾸준히 나아가는 것입니다.

2. 비전 트랜스포머가 CNN보다 뛰어날까? / 이미지 생성 모델도 데이터셋의 '품질'이 중요하다

https://stibee.com/api/v1.0/emails/share/bapTi0eMF2B715gmtEv7q6hvW7jLx7E

1) 비전 트랜스포머가 CNN보다 뛰어날까?

https://huggingface.co/papers/2310.16656
DeepMind의 이 논문은 대규모 데이터세트에서의 훈련 시 Vision Transformers(ViTs)가 Convolutional Neural Networks(ConvNets)보다 성능이 더 우수하다는 믿음에 도전한다. 주요 발견사항은 다음과 같다

  • 저자들은 NFNet 파밀리의 일련의 ConvNets를 0.4k에서 110k TPU-v4 코어 시간의 사전훈련 컴퓨팅 버젯으로 JFT-4B 데이터세트에서 훈련시킨다.
  • 언어모델링의 transformers에서 본 것과 유사한 로그-로그 스케일링 법칙이 검증 손실과 사전훈련 컴퓨팅 사이에 관찰된다.
  • ImageNet에서 파인튜닝 후, NFNets는 유사한 컴퓨팅 버젯으로 사전훈련된 ViT-g/14 및 ViT-G/14의 정확도에 부합한다.
  • 가장 큰 모델인 8 에포크로 사전훈련된 NFNet-F7+는 파인튜닝 후 ImageNet에서 90.4%의 top-1 정확도를 달성한다. 이는 JFT-3B로 사전훈련된 SoViT-400m/14와 유사하다.
  • 결과는 충분한 데이터와 컴퓨팅이 주어지면, 잘 설계된 ConvNets가 이미지 분류 작업에서 Vision Transformers의 성능을 매치할 수 있음을 시사한다. 규모의 컴퓨팅과 데이터를 사용한 사전훈련이 아키텍처 선택보다 중요할 수 있다.
    전체적으로, 이 연구는 대규모 ViTs에서 사용하는 규모에서 훈련될 때 ConvNets가 여전히 최신 정확도를 달성할 수 있음을 보여준다. 이 논문은 ViTs가 더 우수한 스케일 속성을 가지고 있다는 관념에 도전한다. 추가 최적화로, ConvNets는 컴퓨터 비전 작업에서 transformers와 경쟁력을 유지할 수 있다.

    주요 제한점은 이 연구가 이미지 분류만 고려했다는 것이고, ViTs는 검출 및 세그멘테이션과 같은 다른 작업에서도 강력한 성능을 보여줬다는 것이다. 게다가, ViTs는 멀티모달 설정에서 장점이 있을 수 있다. 그럼에도 불구하고, 이 작업은 컴퓨팅 처리량과 데이터 규모와 독립적으로 ConvNets와 ViTs 같은 모델 아키텍처 선택을 평가하기 위한 통제 실험의 중요성을 강조한다

2) 이미지 생성 모델도 데이터셋의 '품질'이 중요하다

이 논문은 text-to-image 모델인 Stable Diffusion을 개선하는 방법에 대해 제안하고 있습니다.
요약하자면,

  • Stable Diffusion은 웹에서 수집한 이미지와 해당 이미지의 alt 텍스트를 트레이닝 데이터로 사용함
  • alt 텍스트는 이미지를 정확하게 묘사하지 않고 중요한 시맨틱 정보가 누락됨
  • 따라서 Stable Diffusion은 입력 텍스트의 뉘앙스를 정확히 이해하지 못하는 문제가 있음
  • 이 논문에서는 image captioning 모델을 사용해 트레이닝 데이터셋의 이미지에 대한 새로운 캡션을 생성함 (RECAP)
  • 이 새로운 캡션된 데이터셋으로 Stable Diffusion을 다시 트레이닝함
  • 결과적으로 RECAP 모델은 기존 모델보다 이미지 품질과 입력 텍스트에 대한 충실도가 개선됨
    • FID 점수가 낮아짐
      - FID 점수 : 실제 이미지와 생성된 이미지에 대해 컴퓨터 비젼 특징에 대한 측면에서 두 그룹이 얼마나 유사한지, 즉 벡터 사이의 거리를 계산한 메트릭
    • 인간 평가에서 정확한 이미지 생성률이 향상됨
    • 객체 정확도, 개수 정확도, 위치 정확도 등이 개선됨
  • 원인 분석 결과, 새로운 캡션은 트레이닝-테스트 불일치를 줄이고 샘플 효율성을 높임으로써 성능 향상에 기여함
  • 결론적으로 자동 캡션을 사용해 트레이닝 데이터셋을 개선하면 text-to-image 모델 성능을 전반적으로 향상시킬 수 있음

    이 논문은 text-to-image 모델의 데이터셋 개선 방법을 제안하고 실험적으로 검증했다는 점에서 의의가 있다고 볼 수 있습니다.

profile
Der Schmerz, der mich nicht töten kann, macht mich nur stärker (나를 죽이지 못하는 고통은 나를 더 강하게 만든다)

0개의 댓글