kite_day.log
로그인
kite_day.log
로그인
[Daily report] 24-06-18
kiteday
·
2024년 6월 18일
팔로우
0
Daily report
0
Daily report
목록 보기
44/60
An Empirical Study of Mamba-based Language Models
NVIDIA에서 나온 논문. Mamba, Mamba2, Hybrid 모델을 서로 비교했다. 직접 다 읽지 못했지만
arXiv Daily
말로는 Hybrid 모델은 트포머 성능을 거의 따라 잡았고 모델이 context에 민감하다고 한다.
OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
LAION보다 큰 데이터셋의 등장. img2txt를 위한 데이터셋이다. 아직 paper 이외에 코드나 데이터셋은 공개가 안된 듯 하다.
MotionClone: Training-Free Motion Cloning for Controllable Video Generation
video generation model. zero-shot이라고 한다. github에 들어가보녕 코드 셋업은 리드미에 있는데 실질적으로 코드는 없는 상황.
NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing
style transfer 비디오 버전이라고 생각하시면 되겠습니다.
What If We Recaption Billions of Web Images with LLaMA-3?
Web에서 데이터를 모아 recaption했다. recaption에는 GPT-4, Llama-3, LlaVA가 사용되었다고 한다. 데이터셋은
hugging face page
에서 다운 받을 수 있다.
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
video를 이해하는 LLaMA 모델이다.
Demo
도 직접 해볼 수 있다. 코드 정리가 굉장히 잘 되어 있다.
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation
font의 스타일을 변경하는 diffusion model. 생각보다 font에 대한 모델이 많은 것 같다. refinement 방식이 흥미롭다.
kiteday
공부
팔로우
이전 포스트
✨[Daily report] 24-06-13
다음 포스트
[Daily report] 24-06-21
0개의 댓글
댓글 작성