[Daily report] 25-11-14

kiteday·2025년 11월 14일

Daily report

목록 보기

67/69

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising
Nvidia 논문. 결과물을 보고 육성으로 "미친 거 아니야?"라고 했다. 왜냐면 training free라고 해서.. 주목할 점은 저자진이 이스라엘쪽이라는 것이다. 중국인이 한 명도 없는 논문? 귀하다. 간단하게 읽어보니까 예전에 리뷰했던 논문인 SDEdit 모델을 응용해서 만든 것 같다. 이렇게도 되는구나 사고할 수 있게 한 논문이었다.
WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
(a) 기존의 VLA(Vision-Language-Actions) 방식은 사람이 직접 모든 걸 관장하기 때문에 Learn From Failures, Self-collection에서 어려움이 있다.(그러니까 reward-action 모델 자체가 설계되지 않은 사람이 모든 걸 관장하는 시스템을 의미한다.) (b) Real-world RL은 reward-action으로 학습이 되지만 on policy를 설계하기에 비용이 매우 높은 한계가 있다. 그래서 제안한 모델은 VLA 환경에서 비용은 낮추면서 on policy 모델이 되는 World model을 제안하는 것이다.
이미지를 이용해 image trajectory들을 만들고 이를 가지고 world model에서 action을 통해 image trajectory를 만드는 policy를 업데이트 한다. 동시에 world model에서 사용된 trajectory들을 sampling하여 policy model의 입력으로 주어 policy업데이트에 함께 일조한다.
뭔가 무한동력 기관열차를 보는 기분. 이론되로라면 Language 모델을 붙여 다양한 Language 샘플을 만들어 오버피팅을 피하고, 반복해서 업데이트 할수도 있을 것 같다.

[Daily report] 25-11-14

Daily report

[Daily report] 25-11-12

[Daily report] 25-12-02

0개의 댓글