Cracking Turn-taking : Natural Interruptions in chat Interactions

김윤서·2024년 6월 9일

1.Introduction

대면 대화는 매끄러운 끼어들기의 교환이라는 특징을 가지고 있다.
현재의 생성 Ai와의 채팅은 이러한 상호작용의 풍부함이 결여됨.
-> write-wait/write-wait 시스템인 생성 AI는 'End-of-Sequence' 토큰을 만날 때까지 연속적으로 토큰을 생성함.
-> <생성 중지> 버튼과 같이 체계적인 개입에 의존함.
근본적인 질문을 다시 검토
-> 채팅 기반 상호작용의 매력을 다시 주입할 수 있을까?
-> 이것이 인간-AI 상호작용의 개선으로 이어질 것인가?
-> 연구는 진정한 대화의 풍부함을 채팅 상호작용에 도입하는 것을 목표로 함

사용자와 AI가 매끄럽게 끼어들 수 있는 차례 분할 채팅 인터페이스를 개발
*기능
1) 대화에서 자연스러운 발화를 나타내는 실시간 스트리밍 채팅
2) 대화 상대방에 대한 매끄러운 끼어들기

*3가지 주요 연구 질문
1) 사용자는 차례 분할 채팅 인터페이스에서 어떻게 상호작용하는가 ?
2) 사용자는 차례 분할 채팅 인터페이스에서의 채팅을 어떻게 인식하는가 ?
3) 사용자는 차례 분할 채팅 인터페이스에서 생성 AI와의 상호작용을 어떻게 인식하는가?

1), 2) 질문에 대답을 얻기 위해 차례 분할 인터페이스를 사용하여 7쌍의 참가자가 대화를 나누는 첫 번째 사용자 연구를 진행했다.
-> 연구 결과, 참가자들은 상대방이 말을 끝내기 전에 자유롭게 끼어들었으며, 이러한 끼어들기로 인해 대화가 자연스럽게 흐를 수 있었음
-> 또한, 사용자가 어떤 특정 끼어들기 행동을 보이는지와 그들이 인터페이스를 어떻게 인식하는지를 조사할 수 있었음
3)에 대한 우리의 목표는 인간-AI 대화에 매끄러운 끼어들기를 도입하는 것이 잠재적으로 미치는 영향을 탐구하는 것
-> 이를 위해 차례 분할 채팅 인터페이스에 끼어들기 기능을 갖춘 생성 AI를 도입
-> 참가자들은 차례 분할 인터페이스가 인간과의 자연스러운 대화를 닮았다고 느꼈으며, 대화에 적극적으로 참여하고, 과제 수행에 있어 통제감과 효율성을 느꼈으며, 생성 ai에 대해 종종 감정적으로 반응

연구의 주요 요소
1) 차례 분할 인터페이스의 구현
2) 사용자가 서로 자연스럽게 상호작용할 수 있는 인간-인간 사용자 연구
3) 사용자와 ai가 서로 끼어들 수 있도록 하는 인간-ai 사용자 연구

2. TURN-CRACKED CHAT INTERFACE DESIGN

인터페이스 구현에 대한 설명.

2-1.Real-time streaming chat

python flask를 사용하여 웹 기반 채팅 환경을 개발
사용자가 타이핑하는 활동을 실시간으로 표시하여 다른 참가자들이 사용자가 무엇을 타이핑하는지 즉시 볼 수 있게 함.
사용자가 "Enter"키를 누르거나 "Send" 버튼을 클릭하면, 메시지가 채팅룸에 전송됨.
밝은 회색 -> 파란색/회색 색상이 변하면서, 사용자가 타이핑을 완료했음을 시각적으로 표시

2-2. Interruptions

모델이 끼어들기 능력을 본질적으로 갖추도록 훈련시키는 대신, 우리는 래퍼 UI를 구현하기로 결정함.
chat GPT-3.5-turbo모델 선택

2-2-1. Interruption from user to AI

(a)와 (d)에서, 사용자는 생성 AI가 이전 프롬프트에 대한 응답을 생성하는 동안 추가 정보를 제공한다.
끼어들기를 수용하기 위해, 생성 AI는 이전 응답을 삭제하고, 새로운 응답을 생성하도록 프로그래밍되어 있음.
(b)는 이전 응답 삭제를, (c)는 새로운 응답을 생성하는 것을 보여줌
but 끊임없이 전체 메시지를 삭제하고 각 끼어들기 우헤 새로운 응답을 생성하는 것은 사용자 피로를 초래할 수 있음.
-> AI가 130자 이상의 응답을 생성할 경우, 중단된 메세지 끝에 ... 를 포함시켜 생성 응답이 계속 진행 중임을 나타내는 해결책을 도입함.
-> (e) 는 ... 를 포함한 이전 응답을 보내고, 새로운 응답을 생성하는 것을 보여줌

2.2.2 AI에서 사용자로의 끼어들기

차례 분할 인터페이스에서는 생성 AI도 사용자 입력을 끼어들 수 있는 능력을 가지고 있다.
(f)는 사용자가 타이핑하는 동안 생성 AI가 생성하는 모습을 보여준다.
사용자가 50자 이상 입력하면, AI는 사용자가 메시지를 보내기 전에 그 입력을 바탕으로 응답을 생성할 수 있다.
끼어들기의 자연스러움을 높이기 위해, 사용자가 항상 상대방의 메시지 버블에 의해 중단되지 않는 점을 고려하여 무작위 요소를 도입함.

3.HUMAN-HUMAN STUDY

인간-인간 사용자 연구는 두 가지 주요 목표를 가짐.
1. 사용자가 실시간 채팅 대화에 참여할 때 어떻게 상호작용하는지를 이해하고자 한다.
2. 사용자가 인터페이스를 어떻게 인식하는지 조사.

3-1.Participants and Procedure

채팅 대화는 상대방과의 관계에 따라 달라질 수 있으므로, 목적 샘플링을 통해 참가자를 모집하였다.
총 14명의 참가자가 채팅 인터페이스를 사용하여 토론에 참여(평균 나이 26세, 8명 여성, 6명 남성, 12명은 한국인, 1명은 독일인, 1명은 중국인)
일곱쌍을 이루어, 6쌍은 한국어로 대화, 한쌍은 영어로 대화.
쌍은 친한친구, 동료, 낯선 사람 등 서로 다른 수준의 친밀감을 가진 개인들로 의도적으로 구성됨.
대화 촉진을 위해, 쌍은 그룹 리트릿 워크숍의 다양한 측면에 대해 공동으로 결정하는 과제를 받음.
논의 후, 참가자들은 인터페이스를 사용한 전반적인 경험과 미래에 다시 사용할 의향에 대해 묻는 개방형 질문을 작성함.

3-2. Results

3.2.1 행동 패턴

참가자들은 다른 사람의 타이핑이 끝나기도 전에 타이핑을 시작하여 상대방의 타이핑을 중단시키는 행동으 보임.
모든 참가자들이 이런 끼어들기 행동을 보여주었고, 인정함.
이유: 1) 상대방의 질문에 미리 답변을 주기 위해서 2) 상대방이 혼란스러울 때 도와주기 위해서
끼어들기로부터의 방해에 대응하기 위해, 참가자들은 동시에 타이핑을 발견하며 타이핑한 메시지를 삭제하는 등의 행동을 보임.
이유 : 1) 동시에 타이핑하는 동안 상대방이 의견에 대한 질문이나 반박을 하기 위해서 2) 자신의 타이핑된 주제와 상대방의 주제가 일치하지 않을 때

3.2.2 사용자 인식

사용자들은 이 인터페이스를 사용한 대화를 "실제 대화와 유사하게"인식함.
끼어들기가 있는 대화의 흐름이 중단되지 않았으며, 이는 대화 상대의 존재감을 높이고 더 큰 참여를 유도함
인터페이스에 대한 전반적인 감정은 의견 교환을 촉진하는데 효과적임.
참가자들은 상호 대화자의 의도를 파악하고, 즉각적인 피드백을 제공하는 것이 더 빠르고 효율적인 결과를 이끌어내며, 시간을 절약하는 효율감을 느낀다고 표현함.
투명한 사고 과정의 특성으로 인해 일부 참가자들은 심리적 부담을 느낄 수 있다.
일부 참가자들은 친밀한 관계 내에서만 사용하는 것을 선호한다고 밝힘

4.human-AI 연구

차례 분할 인터페이스에서 사용자가 생성형 AI와 상호작용을 어떻게 인식하는지 조사하기 위해 온라인 사용자 연구를 실시함.

4.1 Participants and Procedure

참가자 모집 기준은 챗지피티를 사용한 경험이 있는 것 .
실험이 시작되기 전에 참가자들에게 인터페이스에 대한 설명과 튜토리얼 세션을 제공함.
각 작업 후 10분간 참가자들을 전반적인 사용자 경험, 인터페이스에 대한 인상, 출력에 대한 만족도, 제어 가능성, 효율성 및 미래에 인터페이스를 다시 사용할 의사를 평가하기 위한 개방형 질문을 받음

4.2 분석

개방형 질문과 전사된 인터뷰에서 수집된 응답을 분석하기 위해 주제 분석이 실시됨.
두명의 연구자가 응답에서 발견된 주요 주제

4.3 결과

4.3.1 인간과 유사한 자연스러움

모든 참가자들이 대화 중에 인간과 유사한 상호작용을 갖음을 동의
1) 차례 분할 인터페이스는 인간 대화와 유사한 반응을 보여주었음.
2) 지속적인 대화 흐름을 흉내 내어 인간 대화의 흐름을 재현함
-> 이전 프롬프트를 재방문하거나 재정의할 필요가 없음

4.3.2 대화에 참여

1) AI의 응답을 관찰하면서 개입할 기회를 식별함으로써 참여를 느낌.
2) 참가자들은 지피티의 응답을 즉시 수정할 수 있어 대화에 참여한 것으로 느낌.
-> 지시가 즉시 반영되는 것이 대화에 보다 더 참여하게
3) 프롬프트 템플릿을 수정할 필요가 없어 참가자들이 대화에 적극적으로 참여가능

4.3.3 조절 가능성

자신에게 할당된 작업을 조절할 수 있는 감각을 느낌.
1) 지피티의 응답을 즉시 수정가능
2) 참가자들이 지피티의 출력을 사용자 정의할 수 있었음.

4.3.4 효율성

효율적으로 작업을 완료할 수 있다고 보고.
1) 유용한 정보를 얻은 후 응답 생성을 중단함으로써 작업 효율성에 기여함.
2) 참가자들은 프롬프트 템플릿을 정제하고 제고앟ㄹ 필요가 없다는 사실을 감사히 여김
3) 일부 참가자들은 중단 기능이 작업을 단순화하는 데 도움이 되었다는 것을 발견

4.3.5 감정적 반응

일부 참가자들은 지피티 행동에 감정적 반응을 보임. 응답을 중단할 때, AI에 대한 동정심을 표현함.
중단은 누군가의 말을 가로막는 느낌을 줬기 때문ㅇ.

김윤서

study hard, pray harder!

이전 포스트

A Survey on Visual Mamba

다음 포스트