[설계] 문장구분

seunghyun·2023년 12월 27일
0

Yougle

목록 보기
11/15
post-thumbnail

설계: 문장 단위로 재구성하기

이제 AI 코딩은 누구나 하는 시대가 왔다. 그러나 AI를 잘 하려면 데이터를 잘 만들어야 한다. 즉 유튜브 검색 서비스를 만들려면, 자막 정보가 문장 단위로 잘 분리되어 있어야 좋은 결과가 나온다.
물론 그냥 해도 되겠지만, 그렇다면 검색 품질이 떨어지겠지.
그래서 AI 를 위해서는, 데이터 품질을 좋게 하는 작업이 먼저 되어야만 한다. 이것이 다음 주 내로 할 작업 중 하나다.

출력된 자막을 보면 한글 문장단위로 나누어지지 않아있다. (Whisper 선에서 영어는 잘 구분된다.)

예를 들면, 이런 식이다.

[0:00] 안녕하세요, 구독자
[0:05] 여러분
[0:07] 오늘
[0:08] 말씀드릴 내용은
[0:11] 이것입니다

이런 결과를 이렇게 바꿔줘야 한다.
원본자막은 그대로 두고, 새로운 테이블을 만들어서 문장단위로 재조합하여 저장하는 것이다.

[0:00] 안녕하세요, 구독자 여러분
[0:07] 오늘 말씀드릴 내용은 이것입니다

근데 가능할까? 어떻게 한글 문장을 구분할거지?
핵심은 흩어진 문장을 어떻게 한문장으로 분리하느냐 이다.
마침표(.)로 구분할 수 있다면 좋겠지만 그럴 확률은 별로 없겠지.

googling을 엄청 해야겠다.


뉴스 자막이어도 오류가 좀 있길래, whisper 모델을 제일 좋은 large 모델로 하려했으나, 아래 이슈가 생겨서 바로 아래 모델 medium 모델로 하기로 했다. 확실히 base 모델보다 음성 인식 정확도가 높아졌다.

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB. GPU 0 has a total capacty of 8.00 GiB of which 0 bytes is free. Of the allocated memory 6.96 GiB is allocated by PyTorch, and 348.43 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

0개의 댓글