유튜버 'Wldo'님의 영상에서 보고 신기해서 좀 더 찾아보았음
유튜브 영상 링크
감정을 담은 자막 (Caption with Intention)
homepage
- 글로벌 종합 광고 대행사 FCB 시카고가 개발
- 자막이 영화적인 언어를 담을 수 있도록 만듦
- 동기화
- 동적인 텍스트 애니메이션이 입모양(단어가 발음되는 순간)과 정확히 일치함
- 자막에 색상이 노래방 가사처럼 타이밍에 맞춰 채워짐
- 억양
- 글자 크기, 굵기, 애니메이션 효과로 목소리의 증감 표현
- 목소리를 다듬기 위해 목을 긁는 상황을 자막의 흔들림으로 나타내는 등의 효과
- 캐릭터 식별

- 새로 생긴 기술은 아니고 이런 식의 자막효과를 주는 개념은 2000년대 초반부터 존재했다고 함
- 실제 쓸 수 있는 효과는 앞에서 설명한 것보다 더 다양
- 하지만 잘 사용되지 않았던 이유는 이런 식으로 효과를 주려면 자막 스크립트 작업량이 10배 이상 늘어나 자막 제작자가 속된 말로 갈려나가기 때문이었다고 함
- 즉, 노동 집약적인 감이 있어서 더 넓은 영역의 영화나 예산이 많지 않은 영화에서는 적용이 어렵다는 의미인 듯
→ 지금은 기술의 발전으로 그 정도까지는 아닌 걸까? 아니면 AI 모델을 활용하는 걸까?
- AI로 이런 부분을 보조해 줄 수 있으면 좋을 것 같다는 의견이 많이 보임
- 최신 멀티모달 LLM을 사용하면 자동화까지도 가능하겠다는 사람도 있는데 이 부분은 공부를 해 봐야 알 수 있을 것 같다.
- 대화의 맥락과 분위기까지 현재의 AI가 옮길 수 있나?
- 비슷한 맥락으로 수화 자막을 AI로 만들 수 있다면 좋겠다는 생각이 들었음