WithAnyone: Towards Controllable and ID-Consistent Image Generation
모델 자체엔 엄청 특이하거나 특별하게 느껴지는 새로운 구조는 없다. 다만 데이터셋 수집 방법이나, 이걸 진짜 다? 싶을 정도로 짜임새가 좋다. 뭔가 상상만 하던 걸 실현한 모델 같다. Face recognition으로 인물별 ID를 잘 구분했는지 확인하고, Retrival로 인물을 검색하여 reconstruction으로 완성. huggingface 데모, 깃헙 등 완성도가 높다.
ImagerySearch: Adaptive Test-Time Search for
Video Generation Beyond Semantic Dependency Constraints
T2V 모델로 normal distance semantic 뿐 아니라 long semantic인 prompt에 대해서도 잘 작동한다고 한다. 특히 time scaling method가 아니라 context-aware method라서 자연스럽게 생성된다고 한다. 내가 관심있게 본 부분은 LDT 평가 메트릭이다. prompt를 무진장 만들고 끝나는 것이 아니라 이걸 LLM과 human이 둘 다 검사해서 통과한 것만 사용한다. 이후 imageQA로 평가를 완료한다.