MJ-BENCH: Is Your Multimodal Reward Model Really a Good Judge?
텍스트와 이미지간의 상관성, 이미지 자체의 품질, 때론 이미지 간의 상관성까지 평가해야하는데 Multi-modal 모델을 평가하는 것은 결코 쉬운 일이 아니죠. 특히나 RLHF, RHAIF 같은 피드백을 계속 주어서 만드는 이미지는 더욱 어려운 일인 듯 합니다.. 해당 논문은 생성 이미지와 데이터셋과 상관성으로 generation, evaluation 평가의 갭을 줄이는 방식을 제안하고 있습니다.