Cough dataset 으로 YAMNet 사용해보기

배배토·2025년 2월 8일

YAMNet dataset kaggle 딥러닝 분류모델 음성분류 음성인식

이전 포스트에서 다뤘던 YAMNet으로 실습을 해보았다.

현재 음성 이벤트 분류 모델을 생성하기 위해 데이터셋으로 YAMNet을 테스트해보는 과정이다.
YAMNet 모델 바로가기

먼저 코랩에서 YAMNet 코드를 다운받아 작업할 파일에 불러온다. 준비해둔 데이터셋의 파일 형식을 모델이 원하는 인풋 형식으로 변환해준다. .webm → .wav 파일로 변환. 이때 ffmpeg를 사용하는 방식도 있지만, librosa를 사용해도된다. python 라이브러리 librosa

[ 사용한 데이터셋 링크 : covid19-cough-audio-dataset ]

나는 맥 os로 개발 중인데, vscode에서 가상환경을 만들고 모듈 설치 후 import가 잘 안되는 경우를 많이 겪었다. 그때 머리 쥐어뜯으면서 모듈 전부 밀고 다시 깔고 오백번하다가 ... 다음부터는 터미널에서 conda info --env, source activate [가상환경이름], pip install [모듈이름] 하는 방식으로 가상환경 이용하고 있다.

~~이렇게 하니까 매번 잘되던데, 아직 이유는 몰라유~~

아무튼, 터미널에서 ffmpeg 사용해서 .webm 파일을 .wav 파일로 변환해준다. (항상 파일 경로 잘 확인하고 명령어 치자 !!)

ffmpeg -i input.webm -acodec pcm_s16le -ar 16000 output.wav

++ ffmpeg는 pip 아니고 brew로 깔아야 함.

이후에 제공되는 코드에서 wav_file_name만 변경해서 모델을 실행시키니 내가 넣은 Cough Data가 Silence로 분류됨.

이를 시각화 해보았다.

모델이 분류할 수 있는 종류에 Cough도 포함되어있는데, 왜 Silence로 포함되었는지는 잘 모르겠음.
일단 더 많은 데이터셋을 테스트 해보면서 그 이유에 대해 알아보려 한다.
안농

배배토

울며코드먹기..쩝쩝ㅂ

이전 포스트

FT(Fourier transform), STFT (Short Time Fourier transform)에 대해 알아보자

다음 포스트

Cough dataset 으로 YAMNet 사용해보기

FT(Fourier transform), STFT (Short Time Fourier transform)에 대해 알아보자

YAMNet 모델을 활용한 음성데이터 분류 및 분석

0개의 댓글