action space를 product id + attribute로 정의할 때 language model이 만들어내는 product가 이미 존재하는 목록들에 bounded 되도록 하는법? ( n개의 action을 generation 하는 과정에서 이미 있는 item 에 bounded 하게 만드는 과정이 까다로움.. )
action space를 token 단위로 가져갈 때는 비교적 쉬움
Intro
주로 goal 이 있는 dialogue 는 human interaction data로 imitation learning으로 훈련함
dialog를 control 문제로 보면 RL framework를 사용해 task goal로 향하는 대화를 optimize 할 수 있다.
Related work
이전 논문들과의 차이점은 pre-trained LLM을 사용하므로서 large amount 의 unsupervised data를 leverage 한다는 것이다. (conversation 형태의 curated data를 offline RL로 leverage)
Negotiation task
두 유저가 buyer/seller 역할을 하며 나눴던 dialogue를 바탕으로 dataset 구성
RL setup
agent 가 seller position 에서 역할을 수행한다.
(우리의 경우에는 추천 해주는 position을 수행하게 될 것)
env가 buyer 역할을 진행
state, action space는 다음과 같이 정의됨
[state]
[action]
buyer == env 인 환경에서
env가 나타내는 reponse에 대한 distribution을 나타냄
Method
GPT-2를 task-specific 한 dialogue에 fine tuning 시킨다.
세가지 다른 방식의 offline training 방법을 소개
이 objective를 최소화 시키려는데 offline learning에서 Q_target이 보지 못한 ood action에 대한 잘못된 estimation 문제가 있으므로 세가지 방법으로 Q_target을 설정