Direct preference Optimization

이두현·2024년 3월 17일

NLP reinforcement learning

0100101

이전 포스트

REPLUG: Retrieval-Augmented Black-Box Language Models

0개의 댓글