[글또] 언어학과 인공지능 : 음성 개인비서의 장단점과 향후 발전 방향

Judy·2024년 4월 28일

[글또] 음성인식 시리즈

목록 보기

5/5

본 포스팅은 K-Mooc 강의 '언어학과 인공지능' 과제로 작성하였습니다.

스마트폰에 탑재되어 일상생활에 사용되고 있는 Siri, Google Assistant, Bixby 등과 같은 개인음성비서 중의 하나를 선택한 후, 이를 사용해서 적어도 5턴 이상의 대화(즉, 5회 이상의 말 주고 받기를 한 대화)를 3번 진행한 결과를 제출하시오.
이 때, 대화 텍스트를 분석해서 여러분이 선택한 음성개인비서의 장단점과 향후 발전방향을 설명하시오.

(1) 3개의 대화 텍스트 제시
(2) 대화 텍스트를 사용해서 음성개인비서의 장단점 분석
(3) 음성개인비서의 향후 발전 방향 제시

서론

음성 개인비서로 삼성 갤럭시 디바이스에 탑재된 '빅스비(Bixbi) 를 이용하였습니다.
그 이유는 다음과 같습니다.

삼성 즉 국내 기업에서 개발하였으므로 한국어 음성 인식 성능이 가장 우수할 것으로 예상
대화 시나리오 주제 중 '알람 설정' 이 포함되어 있어 빅스비를 사용할 경우 사용중인 갤럭시 디바이스를 효과적으로 제어 가능

(1) 3개의 대화 텍스트 제시

시나리오 #1 : CRUD 테스트

기본적인 CRUD (Create, Read, Update, Delete) 수행 여부를 테스트합니다.

대화

대화 턴	사용자 의도 (Intent)	발화
1	Create	내일 7시에 알람 설정해 줘
2	Create	내일 6시에 알람 설정해 줘
3	Read	현재 설정된 알람을 모두 알려 줘
4	Update	내일 6시 알람을 7시로 바꿔 줘
5	Delete	알람 다 꺼줘
6	Delete	(오전 6시, 오후 6시 알람 각각 설정한 후) 내일 6시 알람 꺼 줘

스크린샷

분석

한국어 음성 인식 성능이 준수함
모바일 디바이스의 기본 기능(알람) 의 CRUD 기능을 효과적으로 수행함
명확하지 않은 발화 ((오전 6시, 오후 6시 알람 각각 설정한 후) 내일 6시 알람 꺼 줘) 의 경우 entity 를 되묻도록 Fallback 기능이 효과적으로 구현되어 있음
명령어 수행 후 사용자에게 결과를 알려줄 때 친근한 구어체를 사용한 점이 돋보임
사용자가 추가로 발화할 가능성이 있는 명령어를 먼저 제시하여 편의성을 높임
단점으로 하나의 발화가 끝나면 이어서 발화를 인식하지 않고 빅스비가 종료됨. 즉 Multi-Turn 지원 불가.

시나리오 #2 : 발화 속도/길이 테스트

시나리오 #2 ~ #3 의 경우 음성 개인비서를 통해 가장 많이 이용하는 서비스가 '날씨 확인' 이기 때문에 테스트 주제로 '날씨 확인' 을 설정하였습니다.
https://koreascience.kr/article/JAKO201708260281109.pdf

발화 속도에 따른 음성인식 정확도를 테스트합니다.

대화

대화 턴	사용자 의도 (Intent)	발화
1	정상 발화	날씨 알려 줘
2	느린 속도 발화 (x0.5)	날씨 알려 줘
3	빠른 속도 발화 (x2.0)	날씨 알려 줘
4	단문형	날씨
5	장문형	내일 서울에 비가 올까?

스크린샷

분석

발화 속도에 관계없이 정상적으로 음성 명령어 인식
- 발화자가 고령자일 경우 발화 속도가 느릴 수 있음을 예상하여 수행하였음.
- 고령자가 천천히 발화할 경우에도 표준어를 정확히 구사한다면 정상적으로 음성 명령을 인식할 것으로 예상됨.
단문, 장문 모두 intent 가 정확하게 분류됨 (명령어가 정확히 인식됨)
- 사용자가 다양한 형태로 발화하여도 Robust 하게 인식할 것으로 예상됨.

시나리오 #3 :

하나의 주제에 대해 연속으로 서로 다른 intent 의 발화를 정상적으로 인식하는지 테스트합니다.

대화

대화 턴	사용자 의도 (Intent)	발화
1	날씨 확인	오늘 날씨 알려 줘
2	지역별 날씨 확인	서울 날씨 알려 줘
3	강수확률 확인	강수확률 알려 줘
4	날씨 확인	내일 날씨 알려 줘
5	지역별 날씨 확인	도쿄 날씨 알려 줘

스크린샷

분석

빅스비가 연속으로 대화를 인식하지 않음에도 Multi-Turn 수행
- 도쿄에서 '서울 날씨 알려 줘' 를 발화한 직후 '강수확률 알려 줘' 발화 시 현재 위치인 도쿄가 아니라 서울의 강수확률을 알려 줌
날짜와 지역, 즉 entity 가 바뀌어도 정상적으로 명령어 수행
- '오늘 날씨 알려 줘' -> '내일 날씨 알려 줘'
- '서울 날씨 알려 줘' -> '도쿄 날씨 알려 줘'

(2) 대화 텍스트를 사용해서 음성개인비서의 장단점 분석

음성 개인비서의 장점

음성만으로 모바일 디바이스의 기본 기능 조작 가능
- 모바일 기기를 수작업으로 조작하기 어려운 사람(시각장애인 등) 또는 상황 (요리 중 등) 에서 효과적으로 기본 기능 수행 가능
연속된 대화, 즉 Multi-Turn 을 효과적으로 수행할 경우 사용자의 피로를 덜어 줄 수 있음
수작업으로 조작할 때와 달리 사용자가 많이 사용하는 메뉴를 추천해 주므로 사용자가 명령 이후의 추가적인 작업을 수행할 경우 편의성을 높임

음성 개인비서의 단점

음성 비서에 명령할 때마다 빅스비를 호출해야 함
- 향후 시리, 구글 어시스턴트 등 다른 음성 개인비서와 비교하여 개선이 필요함.

(3) 음성개인비서의 향후 발전 방향 제시

(음성 개인비서의 단점과 동일) 음성 비서에 명령할 때마다 빅스비를 호출해야 하므로 연속하여 음성을 인식할 수 있도록 개선할 필요가 있음.
- 향후 시리, 구글 어시스턴트 등 다른 음성 개인비서와 비교하여 개선이 필요함.
한국어만으로 테스트하였을 경우 훌륭하게 음성을 인식하나, 추후 저자원 언어 사용자에게도 동일한 성능과 편의성을 제공하여야 한다. (베트남어 등)
명령어 수행 직후 메뉴 추천 시 개인화에 초점을 맞춘다면 더욱 큰 편의성을 제공할 수 있을 것으로 예상됨.

결론

음성 개인비서는 현재 훌륭한 인식 성능을 보이며, 사용자에게 충분히 편의를 제공하고 있으나 빅스비의 경우 음성 명령을 내릴 때마다 빅스비를 호출해야 하는 번거로움이 있다. 따라서 해당 기능을 추가하고, 향후 다국어 사용자를 고려하여 다국어 음성 인식 성능과 편의성을 추가하는 과제가 남아 있을 것으로 전망한다.
또한 현재 명령어 수행 직후에 추가로 수행할 작업을 추천하는 기능이 사용자의 편의성을 증대시키므로 이 장점을 살려 개인화에 초점을 맞춘다면 편의성을 극대화할 수 있을 것이다.

Judy

AI Researcher

이전 포스트

[글또] 언어학과 인공지능 : 음성 개인비서의 장단점과 향후 발전 방향

[글또] 음성인식 시리즈

서론

(1) 3개의 대화 텍스트 제시

시나리오 #1 : CRUD 테스트

대화

스크린샷

분석

시나리오 #2 : 발화 속도/길이 테스트

대화

스크린샷

분석

시나리오 #3 :

대화

스크린샷

분석

(2) 대화 텍스트를 사용해서 음성개인비서의 장단점 분석

음성 개인비서의 장점

음성 개인비서의 단점

(3) 음성개인비서의 향후 발전 방향 제시

결론

[글또] 음성 명령어 인식 라이브러리 소개 (JSGF, Voice2Json, Rhasspy)

0개의 댓글