[Daily report] 24-07-10

kiteday·2024년 7월 10일

Daily report

목록 보기

48/69

MJ-BENCH: Is Your Multimodal Reward Model Really a Good Judge?
텍스트와 이미지간의 상관성, 이미지 자체의 품질, 때론 이미지 간의 상관성까지 평가해야하는데 Multi-modal 모델을 평가하는 것은 결코 쉬운 일이 아니죠. 특히나 RLHF, RHAIF 같은 피드백을 계속 주어서 만드는 이미지는 더욱 어려운 일인 듯 합니다.. 해당 논문은 생성 이미지와 데이터셋과 상관성으로 generation, evaluation 평가의 갭을 줄이는 방식을 제안하고 있습니다.
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations
text 명령어에 맞게 Editing을 하는 VLLM 모델이다. 데이터셋 이야기와 editing을 함께 이야기하는데 comparison 모델들을 보면 Instructpix2pix, MagicBrush 등 확실히 editing에 초점을 맞춰 주장하고 싶어하는 것 같다. 놀라운 점은 이미지가 순식간에 바뀌는 비디오라는 것. LLM의 판은 어디까지 갈까?
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation
image2txt를 생성하는 multi-modal autoregressive model이다. Abstract을 보면 확고하게 "Stable diffusion을 사용하지 않고"라고 명시되어있다. 근데 데이터셋으로 SDM으로 생성한 이미지가 안들어가진 않았을텐데?라는 생각이 들긴 하지만, 확실히 놀랍긴 하다.
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale
역시 SAM과 Grounding DINO를 이용해 마스크를 만들고 해당 마스크에 대해서 inpainting하는 방식으로 editing을 완성한다. 예상할 수 있는 합리적인 방법이다.

너무 할 일이 많은 7월이다. 압박감 사이에서도 평정심을 유지하려고 하고 있고, 여유를 찾으려 부단히 노력중이다.
꾸준함이 다 이긴다는 생각으로 조용하고 잔잔하게 잘 해나가봐야겠다.

[Daily report] 24-07-10

Daily report

[Daily report] 24-07-03

[Daily report] 24-07-26

0개의 댓글