우리는 대화 에이전트의 개인 일관성을 향상시키는 과제를 탐구한다. 일관성을 다루는 최근 모델은 종종 추가 자연어 추론(NLI) 레이블을 사용하여 훈련하거나 일관성 유지를 위해 훈련된 추가 모듈을 생성 에이전트에 부착한다. 그러나 이러한 추가 라벨과 훈련은 어려울 수 있다. 또한, 우리는 가장 잘 수행하는 페르소나 기반 에이전트조차도 모순된 단어에 둔감하다는 것을 발견했다. 사회적 인식과 실용주의에서 영감을 받아, 우리는 상상의 청취자를 통해 기존의 대화 에이전트에게 공공의 자의식을 즉시 부여한다. Rational Speech Acts 프레임워크(Frank and Goodman, 2012)를 기반으로 한 우리의 접근 방식은 대화 에이전트가 모순을 말하는 것을 자제하도록 강제할 수 있다. 우리는 일반적으로 수동으로 또는 무작위로 수행되었던 산만기 선택을 학습함으로써 프레임워크를 더욱 확장한다. 대화 NLI(Wellleck et al., 2019) 및 PersonaChat(Zhang et al., 2018) 데이터 세트에 대한 결과는 우리의 접근 방식이 모순을 줄이고 기존 대화 모델의 일관성을 향상시킨다는 것을 보여준다. 또한 대화에서 페르소나를 넘어 문맥 일관성을 향상시키기 위해 일반화될 수 있음을 보여준다.
대화 에이전트 연구에서 일관성은 오랜 쟁점이었다. 이를 해결하기 위해 대화 에이전트에게 페르소나를 부여하기 위한 많은 연구가 수행되었다. Li et al.(2016)은 임베딩에서 페르소나를 인코딩할 것을 제안하고 Zhang et al.(2018)은 페르소나 조건 대화 데이터 세트를 도입한다. 이러한 작품들 외에도 일관성을 향상시키기 위한 많은 노력이 이루어졌다. 최근 이러한 중대한 진전에도 불구하고, 인격 기반 대화 에이전트를 개선할 여지가 많다. 우리는 가장 잘 수행되는 페르소나 기반 생성 모델(그림 1 참조, 2019; Wolf 등, 2019b; Roller 등, 2020)도 모순되는 단어에 매우 둔감하기 때문에 대화 상대에게 일관된 페르소나를 전달하지 못한다는 것을 관찰한다. 또한, 일관성을 향상시키기 위해 생성 모델 이외의 추가 모듈이 필요한 경우가 많다. 인물 기반 대화의 일관성에 대한 최근의 연구는 다음과 같은 전제 조건을 가진 NLI 기반 접근법(Wellleck et al., 2019; Song et al., 2019; Li et al., 2020; Song et al., 2020)을 적극적으로 채택하고 있다. 첫째, 그들은 수반, 중립, 모순의 세 가지 범주로 분류된 인물 문장과 대화 발화의 라벨이 붙은 쌍을 요구한다. 다음으로, 에이전트의 일관성을 평가하기 위해 NLI 모델을 사용하는 방법 또한 이러한 레이블과 별도로 훈련해야 한다. 이 연구에서, 우리는 이 NLI 기반 감독 접근법에서 한 걸음 물러서서 인간이 어떻게 일관성을 유지할 것인가에 대해 곰곰이 생각해본다. 우리 인간은 일관성을 유지하는 법을 결코 배우지 않는다. 대신, 우리는 우리의 신념과 행동을 조화롭게 유지하기 위한 일관성에 대한 타고난 추진력을 가지고 있다(Festinger, 1962). 그렇다면, 우리가 일관성이 있는지 아닌지 어떻게 알 수 있을까요? 우리는 다른 사람에게 묻지 않는다. 우리는 우리가 다른 사람들에게 어떻게 인식되는지 예측함으로써 스스로에게 묻는다. 대중의 자의식은 타인이 관찰하고 평가할 수 있는 사회적 대상으로서의 자아를 인식하는 것이다(Fenigstein et al., 1975). 우리는 특히 대중의 자의식이 철학적 자의식(또는 자각)과 동등하지 않다는 것을 강조한다. 간단히 말해서 대중의 자의식은 자아를 의식하는 철학적 상태와 반대로 타인에게 어떻게 인식될 것인가에 대한 관심이다. Doherty와 Schlenker(1991)에 따르면, 대중의 자의식이 높은 사람들은 자신에 대해 알려진 정보와 더 일관되게 행동하는 경향이 있다. 그들은 다른 사람들이 그들을 어떻게 평가할지에 대해 깊이 신경 쓰고 부정적인 평가를 피하는 경향이 강하다(Fenigstein 등, 1975). 모순은 다른 사람들에 의해 비난되기 때문에, 대중의 자의식이 높은 사람은 일관성을 유지하기 위해 더 노력할 것이다. 우리가 어떻게 인지되는지를 예측하기 위해, 우리는 다른 사람들의 추상적 모델(Gopnik and Wellman, 1992)에 의존하고 상상력을 기반으로 다른 사람들의 반응을 시뮬레이션한다(Hassabis et al., 2013). 이것에 영감을 받아, 우리의 직관은 상상의 청취자를 통한 자의식이 대화 에이전트들이 일관성을 더 잘 유지할 수 있도록 할 것이라는 것이다. 청취자를 모델링하는 것은 컴퓨터 실용학에서 주요 주제 중 하나이다. 우리의 연구는 원래 참조 표현의 정보성 향상에 적용되었던 베이지안 합리적 음성법 프레임워크(Frank and Goodman, 2012)를 활용하여 인지과학에서 이 긴 작업 라인을 확장한다. 페르소나는 우리가 누구인지 표현해야 하기 때문에, 우리는 대화 상대에게 전달되어야 하는 대상으로 페르소나를 간주함으로써 대화 상대에게 이 프레임워크를 채택한다. 에이전트는 가상의 청취자가 에이전트의 페르소나를 식별하는 데 도움이 되는 토큰을 생성하려고 할 때 마지막으로 더 일관된 발화를 생성할 수 있다. 요약하면, 우리는 사회적 인식과 실용주의로부터 영감을 받아 생성 에이전트에 자의식을 부여하고, 생성 에이전트로 하여금 청취자의 반응을 상상하게 하며, 이를 생성 프로세스에 통합하여 일관성을 향상시킨다. 우리의 주요 기여는 다음과 같이 요약할 수 있다. (1) 우리는 추가 일관성 레이블과 교육을 사용하지 않고 일관성을 개선하기 위해 모든 페르소나 기반 생성 에이전트에 직교로 적용할 수 있는 접근 방식을 제안한다. 더욱이, 대화에서 페르소나를 넘어 문맥 일관성을 향상시키는 것은 일반화할 수 있다. (2) 우리는 합리적인 음성 행동 프레임워크(프랭크와 굿맨, 2012)를 두 가지 새로운 기술적 특징(i)으로 확장한다. (i) 주어진 목표(안드레아스와 클라인, 2016)와 다른 다른 샘플)수동으로 또는 무작위로 수행되었으며, (ii) 이전 상태의 정보를 더 잘 보존하는 청취자 월드에 대한 다른 업데이트. (3) 우리의 접근 방식은 대화 NLI(Welleck 등, 2019)와 Persona Chat(Jang 등, 201)보다 최근 생성 에이전트 3개(Wolf 등, 2019; 2019b; Roller 등, 2020 참조)의 일관성을 향상시킨다.8). 모순의 큰 감소와 함께, 발화 정확도 또한 현저하게 증가한다.
대화에서의 페르소나와 일관성. Li et al. (2016) 임베딩에서 캐릭터를 학습한다. Zhang et al. (2018)은 각각 주어진 페르소나를 연기하는 두 명의 대화자가 포함된 채팅 대화 세트인 PersonaChat 데이터 세트를 출시한다. 마도토 외 연구진(2019)은 대화 샘플이 거의 없는 새로운 페르소나에 적응하기 위해 메타 학습을 사용한다. 류 외 연구진(2020)은 상호 인격 인식을 높이기 위해 강화 학습을 사용한다. 최근 연구에서는 일관성을 향상시키기 위해 추가 모듈 또는 NLI 레이블을 사용한다. Shum et al. (2019) 생성된 템플릿을 채우고 언어 모델로 순위를 매긴다. Zhang et al. (2019)은 생성을 위해 자체 감독 피처 추출기를 사용한다. Wellek et al. (2019)은 NLI 레이블을 PersonaChat 데이터 세트에 주석으로 달았다. 그들은 NLI 모델을 훈련시키고 후보와 페르소나 사이의 쌍별 비교를 실행하여 모순 점수를 계산한다. NLI 접근 방식은 일관성 평가(Dziri et al., 2019), 강화 학습 에이전트에 대한 보상(Song et al., 2019), 일관성 없는 단어 찾기(Song et al., 2020), 가능성 없는 훈련(Li et al., 2020)에 적용된다. 그들은 대상 대화 데이터 세트에 NLI 레이블을 필요로 한다. 그렇지 않으면 데이터 분포의 불일치로 인해 성능이 급격히 저하되는 것이 관찰된다(Wellek et al. 이러한 데이터 세트별 NLI 주석 및 교육 NLI 모델은 비용과 시간이 많이 소요될 수 있다. 이전 방법에 비해, 우리의 접근 방식의 참신함은 NLI 레이블과 추가 모듈 없이 일관성을 향상시키는 것이다. 실용주의. 우리의 접근 방식은 실용주의에서 베이지안 RSA(Rational Speech Acts) 프레임워크(Frank and Goodman, 2012)의 일반 계열에 속한다. 참조 게임(Andreas and Klein, 2016), 이미지 캡션(Mao et al., 2016; Vedantam et al., 2017; Cohn-Gordon et al., 2018), 내비게이션(Fried et al., 2018), 번역(Cohn-Gordon and Goodman, 2019), 요약(Summarization)을 포함한 다수의 NLP 작업에서 정보성을 향상시켰다.19) 및 참조 표현식 생성(Zarrie and and Schlangen, 2019). 그러나 대화 도메인에 대한 적용은 아직 연구되지 않았다. 본 연구에서는 RSA 프레임워크를 대화 에이전트에서 채택하여 불일치 문제를 완화하는 방법을 살펴본다. 또한, 우리는 학습 가능한 프로세스로 산만하게 함으로써 프레임워크를 더욱 확장한다.
조건부 언어 생성은 유망한 진전을 보였지만, 세대 내 일관성을 유지하는 것은 여전히 해결되지 않은 상태로 남아 있다. 정량적 평가에서, 우리는 대화에 대한 기존의 생성 모델이 모순된 단어에 매우 둔감하다는 것을 밝힌다. 대화 NLI 평가. Wellek et al. (2019)은 PersonaChat 데이터 세트를 기반으로 한 Dialogue NLI 데이터 세트 를 소개한다(Zhang et al., 2018). 그들은 주어진 페르소나에 얽히고설킨 모순된 발화를 수집하고, 하나의 지상 진실(GT) 발화로 얽힌 10개, 중립 10개, 모순된 10개 발화 후보와 각각 31개의 대화로 구성된 평가 세트를 공개한다. 이 평가 세트에서, 우리는 PersonaChat에서 최고의 성능을 달성하는 세 가지 최신 모델(Wolf 등, 2019; 2019b; Rolle 등, 2020 참조)을 실행한다. 우리는 Wellek et al. (2019)에 이어 네 가지 순위 지표를 보고한다. 적중 @1, 수반 @1, 중립 @1, 모순 @1. 각 메트릭은 모델에 의해 반환된 상위 1개 후보에서 각각 얽히고 설킨, 중립 및 모순된 발언의 비율이다. 모델들은 난해한 점수로 후보자들의 순위를 매긴다. 그림 2는 세 모델 모두 GT 발화보다 모순되는 후보를 훨씬 더 자주 선택한다는 것을 보여준다(표 3의 추가 결과 참조). 모델은 주어진 페르소나를 조건으로 하지만 모순에 매우 둔감하다.
최첨단 모델에서 모순에 대한 불감증이 팽배한 이유를 조사하기 위해, 우리는 GT 발언 및 최상위 참가 후보(Top Incause-Utt)와 비교하여 모델에 의해 반환된 모순된 발화를 추가로 분석한다. 표 1은 SPICE(Anderson et al., 2016)와 ROUGE(Lin, 2004)
를 사용하여 선택된 후보와 주어진 페르소나 문장 사이의 언어 지표를 보고한다. SPICE 메트릭은 의미론적 유사성을 측정하고 ROUGE 메트릭은 두 문장 사이의 n-gram 중첩을 측정한다. Conrelict@1-Utt는 다른 발화보다 낮은 SPICE 점수와 높은 ROUGE 점수를 보여주며, 의미론에서는 다를 수 있지만 주어진 페르소나와 구문에서는 유사할 수 있음을 시사한다. 자세히 보기 위해 Conrelict@1-Utt에서 모순되는 단어를 추출하고 GT 발화에서 모순되는 단어를 추출하여 평균 난해성 점수를 비교한다. Dialogue NLI 데이터 세트에서 모든 발화는 (i, 음악, 록을 좋아하는)와 함께 "나는 그냥 록 음악을 듣는 것을 좋아한다"와 같이 트리플(entity1, 관계, 엔티티2)로 레이블링된다.
구성상 Conrelict@1-Utt는 GT 발화 및 주어진 페르소나와 모순되는 단어를 포함해야 한다. 모순되는 단어의 난해성 점수(106.7)는 GT 발화의 난해성 점수(280.1)보다 상당히 낮았다. 표 2는 단어당 복잡도가 있는 그러한 대화 사례의 예를 보여줍니다. 주어진 페르소나를 적절하게 사용한다면, 모델은 페르소나의 단어에 대해 더 낮은 난해함을 보여야 한다. 그러나, 그들의 난해성 점수는 모순된 단어들의 난해성 점수보다 현저히 높다. 그것은 모델이 페르소나 조건 모델보다는 일반 언어 모델로서 더 많이 행동한다는 것을 보여준다. 따라서 이러한 문제를 해결하기 위해서는 페르소나 기반 대화 에이전트가 각 단어 생성 단계에 대한 일관성의 보장이 필요하다.
우리는 대화 에이전트에게 캐릭터에 대한 상상의 청취자의 분포를 반영하여 각 세대 단계에서 일관성을 유지하는 데 도움이 되는 공공의 자의식을 부여하는 방법을 소개한다. 상상의 청취자는 단순한 대화 에이전트로부터 발생하기 때문에 별도의 훈련이 필요하지 않다. 그림 3은 전체 구조를 보여줍니다. 우리는 4.1절의 RSA(Rational Speech Acts) 프레임워크(Frank and Goodman, 2012)를 사용하여 대중의 자기 의식을 모델링하는 방법을 제시한다. 그런 다음 4.2절에서 RSA의 주요 신규성으로 산만하게 선택하는 방법에 대해 설명합니다.
우리는 NLI 레이블에 대한 교육 이나 NLI 모델과의 등급 일관성에 대한 훈련 없이 일관성에 대해 자각하는 대화 에이전트를 구축하려고 한다. 청취자와 화자 간의 상호 작용을 모델링하는 것이 실용주의에서 주요 주제라는 점을 감안할 때, 우리는 RSA 프레임워크 를 활용한다(Frank and Goodman, 2012). 언어 사용을 확률론적 화자와 청자가 서로의 의도에 대해 베이지안 방식으로 추론하는 재귀적 과정으로 취급한다. 대화용 시퀀스 생성에 프레임워크를 적용하기 위해 이미지 캡션을 위해 제안된 증분 접근 방식을 확장한다(Con-Gordon et al., 2018). 발화를 생성하기 위해 에이전트는 다음과 같이 베이지안 방식 으로 시간 단계에서 다음 모든 토큰의 분포를 계산한다.
산만인자(Andreas와 Klein, 2016)는 주어진 대상과 다른 샘플(예: 데이터 세트의 다른 인물)이다. RSA의 이전 연구에서 월드 I에 포함될 산만함은 데이터 세트에서 수동으로 또는 무작위로 선택된다. 그러나 선택한 산만 요인에 따라 성능 차이가 크다는 것을 발견했다. 따라서 우리는 특히 평생 기억 네트워크를 기반으로 산만자 선택을 배울 것을 제안한다(Kaiser 등, 2017). 평생 기억 네트워크는 유사한 대화 컨텍스트를 관련 페르소나가 있는 몇 개의 슬롯으로 암시적으로 클러스터링할 수 있다. 따라서, 그것은 효율적으로 각 문맥에 대한 산만하거나 산만한 성격을 암기하고 검색할 수 있다. 부록에서, 우리는 우리의 접근 방식이 BERT 기반 알고리듬을 포함한 다른 모델보다 성능이 뛰어나다는 것을 실험한다. 유용한 산만하거나 배역을 더 잘 선택하기 위해서는 지도 학습이 바람직하다. 그러나 각 대화에 도움이 되는 주의 산만 요인을 나타내는 명시적 라벨은 없다. 우리는 훈련 대화 상자에 따라 최고의 Hits@1을 가진 페르소나를 주의 분산기 레이블로 선택한다. Hits@1은 주어진 페르소나와 일관되거나 모순되는 다른 후보 발언보다 실체적 진실 다음 발언(일관적이고 문맥적 관련)을 선호하는 점수이다. 즉, 점수는 일관성과 적절성을 동시에 나타낸다. 따라서, 그러한 산만함은 자의식 에이전트가 문맥과 관련된 반응을 생성하고 상상적 청자가 화자의 페르소나를 식별할 수 있도록 도울 수 있다. 각 훈련 데이터 포인트는 주어진 페르소나, 산만하게 하는 페르소나, 대화 문맥으로 구성된다.
이 연구는 공공의 자기 의식을 모델링하는 것이 대화 에이전트가 인격-일관성을 개선 하는 데 어떻게 도움이 될 수 있는지 조사했다. 우리는 기존 대화 에이전트가 모순에 매우 둔감하다는 것을 보여주었고, 이 문제를 완화하기 위해 RSA 프레임워크(Frank and Goodman, 2012)를 사용하여 직교 적용 가능한 방법을 도입했다. 우리는 또한 산만함 메모리라는 이름의 산만함 선택을 위한 학습 방법을 설계하고 청취자의 세계를 위한 더 나은 업데이트를 제안했다. 또한, 우리는 대화 컨텍스트 일관성을 개선하기 위해 우리의 접근 방식을 일반화할 수 있는 방법을 보여주었다. 우리의 자의식 에이전트는 일관성 레이블과 NLI 모델 없이 대화 NLI(Wellleck et al., 2019) 및 PersonaChat(Zhang et al., 2018) 데이터 세트에서 기본 에이전트를 개선했다. 중요한 미래 방향은 산만함을 생성하고 합리성 계수를 학습하는 것이다.