전편 Dialogue Response Ranking Training with Large-Scale Human Feedback Data 논문요약 (1) 에 이어서 계속 포스팅합니다 :)
각 샘플에 feedback 예측 점수를 매기는 대신 샘플쌍에 대해 더 적절한 응답을 분류하는 테스크(A Contrastive Learning approach)로 아래 규칙을 따른다.
The model is trained to predict a higher score for the positive sample r+ (i.e. the response with more feedback) compared to the negative sample r−.
1) only comparing replies of the same context
2) the sequence of two replies, r+ and r− must have been created within a brief time window (no more than one hour)
3) the feedback score of r+ must exceed that of r − by a specified threshold in order to make the label less noisy.
4) if a reply has more downvotes than upvotes, it will not be considered as a positive sample, but can be used as a negative sample
DialogRPT의 결과값을 Sigmoid 태워 positive sample의 값을 maximize하고 negative sample의 값을 minimize하는 것이 목표
한 샘플에 대해 두가지를 동시에 평가하기 위해 위의 preferred human 값과 human-like 예측 분류 모델을 함께 사용함.
결과적으로 기존의 perplex-based된 DialogGPT보다 ranking하는 성능이 향상됐는데, 이는 Generative dialogue model의 ranking 과정에서 사람의 피드백정보를 통합하면, 단어간의 관련성에만 의존하는 방법보다 자연스러운 대화모델을 개발할 수 있음을 나타냄