!pip install -e . 를 실행한 다음 학습으로 넘어가기 이전 해야할 단계들에 대해 알아보자.
-학습에 필요한 것 : 음성 데이터 (pcm), 전사데이터 (음성이 무엇을 말하는지 적은 문자열)
def rule(x):
# 괄호
a = re.compile(r'\([^)]*\)')
# 문장 부호
b = re.compile('[^가-힣 ]')
x = re.sub(pattern=a, repl='', string= x)
x = re.sub(pattern=b, repl='', string= x)
return x
실제로 들어온 음성 데이터에 대해 전처리하는 코드, 사전 만드는 코드는 'kospeech/dataset/kspon'에 저장되어있다. Kospeech 중 전처리 포함 코드
전처리 코드는 AIhub 에 있는 한국인 발화 데이터에 적용 가능한 것이고, 우리도 역시나 이 데이터를 사용할 것이다.
pip install -r requirements.txt
포함되어 있는 정보는 다음과 같다.
--dataset_path: 오디오 파일을 포함하는 폴더의 경로
--vocab_dest: 전처리의 단어 사전의 저장 경로 (단어 사전은 우리가 만드는 것은 아님, 저장할 경로만)
--outputunit: 택할 전처리 방법(필자는 character unit 글자 단위 _ 선택)
--preprocess_mode: phonetic인지 spelling인지 원하는 것 선택 -> 칠 십 퍼센트 or 70% (필자는 phonetic)
--vocab_size: 단어 사전의 크기, 미입력시 5000
$ ./preprocess.sh
python main.py --dataset_path "D:\code\train wav" --vocab_dest "D:\kospeech-latest" --output_unit "character" --preprocess_mode 'phonetic'
'오디오 경로 + 탭 + 한국어 전사 + 탭 + 벡터화된 전사' 형태이며, 아래와 같다.
그리고 나서 아마 학습 코드를 실행하면 또다른 오류 (데이터 개수도 고정되어 있기 떄문에)가 뜰 것이다.