사이드 프로젝트를 진행해보신 분들이라면 모두 공감하시겠지만요. 아무 일 없이 순탄하게 개발이 이뤄지는 건 정말 드물거예요. 무조건 어려움에 직면할 수 밖에 없죠.
서비스 기획이 처음인 팀 비노에게 당황스러운 일들이 생기는 건 당연하고도 당연한 일이었습니다. 이번엔 팀 비노가 만난 당황스러운 사건들과 어떻게 헤쳐나갔는지, 그 고군분투기를 남겨보겠습니다.
고군분투기를 설명하려면 저희의 Vi.NO가 어떤 서비스인지부터 말씀드려야 할 것 같아요.
Vi.NO는 AI를 활용하여 유튜브 영상을 단락화된 텍스트로 변환해주는 영상 정리 솔루션입니다.
유튜브에는 도움이 되는 정보성 콘텐츠들이 정말 많죠. 시간 없는 이 사회에 1시간, 2시간 넘어가는 영상들을 그냥 보고 있을 수도 없는데요.
"내가 원하는 부분만 확인하고 싶은데..." 하며 방향키로 '15초 건너뛰기'만 누르며, 곤란했던 적 한번쯤 있으실 거예요.
👀 한눈에 내용을 파악하기엔 텍스트가 제격이죠.
그래서 Vi.NO는 유튜브 링크만 넣으면, 영상을 텍스트로 바꿔줍니다.

무엇보다 Vi.NO의 강점은 AI를 통해 스크립트를 읽기 쉽게 내용별로 단락을 나누어 준다는 것입니다. 단락별로 소주제까지 제공하여 정말 읽기 쉽죠.

1) (개인) 유튜브 영상이 너무 길어 다 보기 힘들어요!
2) (교육 플랫폼) 강의 영상 중 핵심만 제공하고 싶어요!
3) (청각장애인) 영상 내용을 텍스트로 직관적으로 확인하고 싶어요!
Vi.NO 사이트 바로가기
www.vi-no.site
Vi.NO가 어떻게 기획되고 디벨롭 되었는지 아래 노션 페이지에서도 자세히 확인해 보세요.
📂 Vi.NO 제작 자료 확인하기 (2023.12~)
각설하고, 모든 서비스들이 그렇듯 Vi.NO에게도 꼭 해결하고 싶은 문제들이 있었어요.
영상 대신 더 빠르게 원하는 부분을 텍스트로 파악할 수 있도록 하자는 비전을 바탕으로, 아래의 3개의 목표를 가졌죠.
: 정말 유튜브에서 발화되는 그대로가 아닌, 텍스트로서 읽기에 부담없이 쉬운 스크립트가 필요했어요.
: Vi.NO에서 스크립트를 제공하기로 한 이유는 우리가 유튭에서 '15초 건너뛰기'를 할 때 "내가 중요한 내용을 건너뛰지는 않았을까?" 하는 걱정을 해소시켜주기 위함이었어요. 그래서 빠진 내용이 없는 것이 정말 중요했죠.
: 영상을 텍스트로 보려는 목적 중 하나는 시간적 효율성이기 때문에 변환 시간은 양보할 수 없는 부분이었죠.

충격적이지만 위 사진은 1월 17일 추출했던 유튜브 스크립트입니다. 아래 api를 찾아 스크립트를 돌렸고, (https://www.npmjs.com/package/youtube-caption-extractor) 충격에 제일 먼저 한 말은 "이건 진짜 안돼요" 였습니다.
워낙 스크립트의 가독성이 좋지 않고, 내용 파악이 어려운 수준이다 보니,
스크립트 추출 -> gpt 통한 텍스트 보정 -> 텍스트 단락화
의 로직을 택했습니다. 그렇다보니 아래 이미지와 같이 내용이 빠져버린 텍스트만 남게 되었어요.
어떻게 보면 그럴듯해 보이지만, 스크립트 중간중간 비약이 생기는 지점들이 생겨, 유저가 영상과 스크립트를 함께 보기 힘들어졌죠.
정말 서비스의 핵심 부분이 문제였던 비상인 상황, 위 두가지의 문제를 해결한 것은 바로 네이버 클라우드 api 덕분이었는데요.
그 배경엔 자주 사용하고 있었던 클로바 노트가 있었고, 눈여겨 보고 있던 hyperclovaX의 행보 덕이었습니다.

ㄴ 2023년 10월, HyperClovaX 출시 후 셀프 스터디한 내용
가장 먼저 주요하게 사용했던 것은 CLOVA SPEEACH api 였는데요.
Vi.NO에서 작동하는 모습은 다음과 같습니다! 스크립트가 너무 잘 읽히지 않나요?

게다가 구조화된 내용을 기반으로 단락까지 나누어 더욱 한 눈에 들어오도록 구성했습니다.
실제로 타 api가 아닌 clova speech api를 사용한 이유와 본 api를 실제로 적용한 과정의 A to Z 를 다음 콘텐츠에서 더욱 자세히 소개하도록 하겠습니다.
그럼에도 남은 문제는 바로 '변환 시간' 이었는데요. 사실 이 부분은 여전히 해소하지 못하였지만, 주요하게 해결해야 하는 문제로 남아있는데요.
대략 10-12분의 영상까지는 1분 정도의 스크립트 추출 + gpt를 통한 보정 시간이 소요됩니다. 이 이후의 영상들은 아직 변환하기 어려운 상태인데요. Vi.NO는 계속해서 개발 중이고, 더더욱 개선해나가겠습니다!