[Daily report] 24-04-12

kiteday·2024년 4월 12일

Daily report

목록 보기

22/69

https://viggle.ai/
video2video, text2video를 서비스하는 사이트. 디스코드로 베타 버전을 서비스 중이다. 결과가 놀라움

Paper

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
InternLM 시리즈. 공부가 필요하다.
Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation
Mamba기반 네트워크 모델.
✔✨ Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic
모델을 학습하는데는 두 가지의 자원이 필요하다. 하나는 컴퓨팅 파워고 다른 하나는 데이터셋이다. 이 논문은 각 epoch이 다를 때 어떤 데이터셋을 써야하는지 실험 결과를 제시한다. 적은 epoch으로 학습을 끝낼 경우는 좋은 데이터셋을, 많은 수일 경우에는 퀄리티가 떨어져도 많은 수의 데이터셋을 가용하는게 좋다고 한다. 아주 좋은 연구인 것같다.
Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models
귀여운 이름에 그렇지 못한 연구
SpatialTracker: Tracking Any 2D Pixels in 3D Space
2D에서 3D만 생각했었는데 그 반대의 경우도 이렇게 연구가 될 수 있구나 느꼈다. 이렇게 2D 픽셀로 동영상에서 각 object가 어떻게 변화하는 지 볼 수 있는 것도 좋은 주제인 듯 하다.
✨UniFL: Improve Stable Diffusion via Unified Feedback Learning
기존 style transfer나 gan시절의 연구들을 녹여낼 수 있으면 좋겠다고 생각했었다. 이 논문이 그걸 한 것 같아 굉장히 인상깊다.
✨SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing
editing 논문. 고흐의 별헤는 밤 예제가 정말 놀랍다.

[Daily report] 24-04-12

Daily report

Paper

[Daily report] 24-04-08

[Daily report] 24-04-16

0개의 댓글