https://blog.naver.com/learning-crew/223256586369
- 의사결정을 위한 충분한 시간을 확보하고, 불필요한 고민으로부터 집중력을 보호하는 방법입니다.
- 결정을 내려서는 안 되는 상황을 인지하고, 그러한 때에 결정을 유보하는 방법입니다.
- 의사결정을 내리는 순간은 자신의 생각이 옳다는 확신을 가질 수 있을 때여야 합니다.
- 의사결정의 중요도를 판단하고, 덜 중요한 결정에 에너지를 낭비하지 않도록 하는 전략입니다.ㅇ
- 결정에 영향을 미치는 다양한 요소를 인식하고, 이를 바탕으로 정보에 근거한 결정을 내리는 방법입니다.
- 의사결정 전에 테스트를 실시하여, 가능한 결과를 미리 경험하는 방법입니다.
- 자신의 가치관과 기준을 설정하고 이를 의사결정 과정에 적용하는 것의 중요성입니다.
- 다른 사람의 경험과 관점을 구하여, 의사결정에 도움을 받는 방법과 그 한계를 이해하는 것입니다.
- 자신이 진정으로 원하는 것에 귀 기울여, 본능과 욕구를 이해하는 과정입니다.
- 스트레스와 불안을 관리하고, 의사결정 과정에서 이를 최소화하는 방법입니다.
- 실패한 결정을 통해 학습하고, 목표가 아닌 실행 전략을 조정하는 능력의 중요성을 강조합니다.
-빠르기 실패를 인정하고 수정한 다음에 다음 계속 나아가야합니다. 핵심은 항상 목표를 향해 꾸준히 나아가는 것입니다.
https://stibee.com/api/v1.0/emails/share/bapTi0eMF2B715gmtEv7q6hvW7jLx7E
1) 비전 트랜스포머가 CNN보다 뛰어날까?
https://huggingface.co/papers/2310.16656
DeepMind의 이 논문은 대규모 데이터세트에서의 훈련 시 Vision Transformers(ViTs)가 Convolutional Neural Networks(ConvNets)보다 성능이 더 우수하다는 믿음에 도전한다. 주요 발견사항은 다음과 같다
- 저자들은 NFNet 파밀리의 일련의 ConvNets를 0.4k에서 110k TPU-v4 코어 시간의 사전훈련 컴퓨팅 버젯으로 JFT-4B 데이터세트에서 훈련시킨다.
- 언어모델링의 transformers에서 본 것과 유사한 로그-로그 스케일링 법칙이 검증 손실과 사전훈련 컴퓨팅 사이에 관찰된다.
- ImageNet에서 파인튜닝 후, NFNets는 유사한 컴퓨팅 버젯으로 사전훈련된 ViT-g/14 및 ViT-G/14의 정확도에 부합한다.
- 가장 큰 모델인 8 에포크로 사전훈련된 NFNet-F7+는 파인튜닝 후 ImageNet에서 90.4%의 top-1 정확도를 달성한다. 이는 JFT-3B로 사전훈련된 SoViT-400m/14와 유사하다.
- 결과는 충분한 데이터와 컴퓨팅이 주어지면, 잘 설계된 ConvNets가 이미지 분류 작업에서 Vision Transformers의 성능을 매치할 수 있음을 시사한다. 규모의 컴퓨팅과 데이터를 사용한 사전훈련이 아키텍처 선택보다 중요할 수 있다.
전체적으로, 이 연구는 대규모 ViTs에서 사용하는 규모에서 훈련될 때 ConvNets가 여전히 최신 정확도를 달성할 수 있음을 보여준다. 이 논문은 ViTs가 더 우수한 스케일 속성을 가지고 있다는 관념에 도전한다. 추가 최적화로, ConvNets는 컴퓨터 비전 작업에서 transformers와 경쟁력을 유지할 수 있다.주요 제한점은 이 연구가 이미지 분류만 고려했다는 것이고, ViTs는 검출 및 세그멘테이션과 같은 다른 작업에서도 강력한 성능을 보여줬다는 것이다. 게다가, ViTs는 멀티모달 설정에서 장점이 있을 수 있다. 그럼에도 불구하고, 이 작업은 컴퓨팅 처리량과 데이터 규모와 독립적으로 ConvNets와 ViTs 같은 모델 아키텍처 선택을 평가하기 위한 통제 실험의 중요성을 강조한다
2) 이미지 생성 모델도 데이터셋의 '품질'이 중요하다
이 논문은 text-to-image 모델인 Stable Diffusion을 개선하는 방법에 대해 제안하고 있습니다.
요약하자면,
- Stable Diffusion은 웹에서 수집한 이미지와 해당 이미지의 alt 텍스트를 트레이닝 데이터로 사용함
- alt 텍스트는 이미지를 정확하게 묘사하지 않고 중요한 시맨틱 정보가 누락됨
- 따라서 Stable Diffusion은 입력 텍스트의 뉘앙스를 정확히 이해하지 못하는 문제가 있음
- 이 논문에서는 image captioning 모델을 사용해 트레이닝 데이터셋의 이미지에 대한 새로운 캡션을 생성함 (RECAP)
- 이 새로운 캡션된 데이터셋으로 Stable Diffusion을 다시 트레이닝함
- 결과적으로 RECAP 모델은 기존 모델보다 이미지 품질과 입력 텍스트에 대한 충실도가 개선됨
- FID 점수가 낮아짐
- FID 점수 : 실제 이미지와 생성된 이미지에 대해 컴퓨터 비젼 특징에 대한 측면에서 두 그룹이 얼마나 유사한지, 즉 벡터 사이의 거리를 계산한 메트릭- 인간 평가에서 정확한 이미지 생성률이 향상됨
- 객체 정확도, 개수 정확도, 위치 정확도 등이 개선됨
- 원인 분석 결과, 새로운 캡션은 트레이닝-테스트 불일치를 줄이고 샘플 효율성을 높임으로써 성능 향상에 기여함
- 결론적으로 자동 캡션을 사용해 트레이닝 데이터셋을 개선하면 text-to-image 모델 성능을 전반적으로 향상시킬 수 있음
이 논문은 text-to-image 모델의 데이터셋 개선 방법을 제안하고 실험적으로 검증했다는 점에서 의의가 있다고 볼 수 있습니다.