- SSRL: SELF-SEARCH REINFORCEMENT LEARNING
칭화대, 상하이AI랩, 런던대 등 다수의 저자진이 연구했다. 스스로 검색을 통해 (Bing, wikipidia, google 등) policy 모델을 업데이트 한다는 방법을 제시한 연구이다.(퍼포먼스 측정 메트릭 논문임) 가장 첫번째 이미지로 이 방식으로 LLaMA와 Qwen을 연구했을 때의 정확도를 zero-shot, sim2real과 함께 비교하고 있다. 해당 분야는 잘 모르지만, 페이퍼에서 자세히 적어뒀으니(무려39페이지) 연구 흐름을 읽는데 도움될 듯.
- Thyme: Think Beyond Images
논문으로 먹고 살기 어렵네.. 라는 생각이 들게 하는 페이퍼다. 모델이 하는 일은 일단 이미지로부터 정보 분석하기(텍스트 질문에 텍스트 대답)와 텍스트로 내린 명령에(예: 크롭) 대해 결과이미지반환+(결과 이미지를 얻기위한)코드짜주기를 해준다. 한번만 더 생각해보면 OpenAI의 모델이 제일 잘하는게 파이썬이니까 이미지만 아주 잘 분석할 수 있다면, 코드를 짜는 건 큰 문제가 아닐거란 생각이 든다. 해주는 역할은 크롭, 줌, 이미지 뭘리티향상(SR은 아니고 contrast enhancement라고 되어있으니 아주 간단한 흑백으로 된 글자정도 가능할 듯), 수식풀기(이미지로 문제 제시)이다. fail case에서 볼 수 있듯이 완벽하진 않다.
- StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation
카이스트에서 Pacific Grapics 2025에 낸 논문이다. 3DMM으로 영상 속 인물의 얼굴 움직임을 따와서 그대로 다른 마스크의 움직임으로 변화시키는 논문으로 real mesh와 texture로 stylization한 결과와 3DMM 방식으로 stylization한 결과를 합쳐서 loss를 계산하는 방법으로 학습한다. 개인적으로 논문의 짜임새와 방법 등이 과장하지 않고 쌓은.. 정석적으로 느껴진다. 이런 논문을 보면서 개인적으로 느끼는 것은 아무리 새롭고 신기한게 많아도 정석 방식의 논문은 영원한 클래식이라는 것이다. 멋지다. 조금 더 이 분야에 대해 알고싶다.
- Controlling Multimodal LLMs via Reward-guided Decoding
MLLM을 제어하기 위한 대중적인 방법으로는 Prompting, SFT(supervised fine-tuning), RLHF가 있다. 하지만 이 방법은 모두 각각 잘 알려진 단점이 있는데 대표적으로 prompting의 경우 텍스트로 모든 것을 제어해야하기 때문에 쉽지 않다. 그래서 해당 연구에서 저자들은 reward-guided decoding이라는 새로운 방식을 제안한다고 한다. MLLM으로 어떤 지시에 대해서 (예시: 이미지 디테일을 설명해줘!) k개의 대답을 받은 뒤, 이를 evaluation한 결과를 linear combination해서 최종 평가를 하는 방법이다. 생각보다 단순한데 이런 리워드 모델이 정말로 논문처럼 잘 될지는 직접 돌려봐야할 일이다.