★ThinkMorph:Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
텍스트와 이미지의 chain of thought을 합쳐서 보는 것이 아닌 상호 보완적으로 보는 것이 핵심. Question(text) - Image - Ansewer(text) 간의 loss를 계산해 chain of thought를 처리한다.

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning
MLLM이 이미지에 대한 설명은 잘 하지만 아직 비디오에 대한 설명은 완벽하지 않다. 그래서 논문에서 제시한 방법은 grounding + captioning 방식. 초를 멈추고 해당 내용에 대해 스스로 질의응답을 하며 답을 강화시켜간다. 좀 사람 같은 방식이라 느꼈다.
