[Audio] STT 후처리

yoonene·2022년 8월 27일
0

ML/DL

목록 보기
7/17

음성 경진대회에 참가하면서 ProFessor 프로젝트에 이어 STT를 다루게 되었다.
STT의 결과를 확인해보면 중복된 문자가 반복되고 띄어쓰기가 제대로 되어있지 않은데, 이를 간단한 코드로 후처리 할 수 있다.

def post_process(sentence):
    words = sentence[0].split()
    result = []
    for word in words:
        tmp = ''    
        for t in word:
            if not tmp:
                tmp += t
            elif tmp[-1]!= t:
                tmp += t
        if tmp == '스로':
            tmp = '스스로'
        if tmp == '씨티브이':
            tmp = '씨씨티브이'
        result.append(tmp)
    return ' '.join(result)
profile
NLP Researcher / Information Retrieval / Search

0개의 댓글