[Daily report] 24-08-13

kiteday·2024년 8월 13일

Daily report

목록 보기

52/69

Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches
SDXL에 LoRA로 finetuning한 전형적인 방식. 방법론 적으로 크게 놀라운 것이 없지만 이 방법이 3D 게임 scene 도메인에도 쓰일 수 있구나 싶었다.
TRANSFORMER EXPLAINER: Interactive Learning of Text-Generative Models
실제 transformer 기반의 LLM 모델의 구조를 제시하며 어떻게 학습되는 지 각 파라미터를 시연으로 함께 보여준다. 막역한 거대 구조를 쉽게 보여준다. 시연은 여기서 해볼 수 있다. 궁금한 것은 왜 GPT 4 시대에 GPT 2로 했는가이다.
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models
image-text knowledge에 대한 MLLM. 단순한 single-image뿐만 아니라 multi-image나 비디오도 가능. attention 기반으로 query는 재사용하고 key/value만 새로 학습하는 방식을 사용했다고 한다.
BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion
texture inversion으로 stylization을 할 때, 몇 가지 다른 방법/ 토큰으로 실험한 결과를 보여준다. 크게 text encoder, denosizer, adapter유무 3가지 카테고리를 변경하여 커스텀한 결과들을 비교하고 있다. 이 동네에서 보기 드문 단독저자의 논문이다. 그치만 그렇게 불가능한 정도는 아닌 난이도이다.
Kalman-Inspired Feature Propagation for Video Face Super-Resolution
비디오 SR 모델. 제시한 결과 이미지가 좋다. 인코더는 예상 가는 Cross-attention, 디코더는 약간 의외인 VQGAN generative model이다. Kalman filter network를 적용해서 teporal한 정보를 유지할 수 있다고 한다. 깃헙은 있는데 코드는 없음. ECCV2024
MulliVC: Multi-lingual Voice Conversion With Cycle Consistency
Zhejiang 대학과 bytedance에서 공동으로 집필한 논문. multi-lingual이라고 했는데 이게 cross-lingual과 같은 말로 화자와 청자의 언어가 달라서인지 아니면 다수의 화자와 청자가 동시에 발화 중인지 용어만 봤을 때 약간 헷갈린다. translation 과정을 거치는 것을 보니 전자의 의미가 맞는 듯 하다. voice는 조금 잘 모르는 분야이다. 그치만 궁금한 분야.

[Daily report] 24-08-13

Daily report

[Daily report] 24-08-06

[Daily report] 24-08-15

0개의 댓글