프로젝트를 마치면서 많은 걸 느꼈다. 그중에 가장 크게 와닿았던 건 기본에 충실해야 하는 것이었다. 전반적으로 VGG16 부터 AST 까지 기초적인 부분에서 문제가 많았기 때문에 좋은 실험 결과를 낳을 수 없었고 실수가 잦았던 것 같다. 그럼에도 불구하고 다 같이 데이
Back to Square One(다시 시작) AST 전반부에서 훈련한 모델을 서버에 배포 후 앱에서 아기 울음소리를 직접 녹음해 테스트를 진행했다. 이때 앱 테스트 전 Test Accuracy는 70%를 살짝 넘기는 정도여서 나름 만족을 하고 있었다. 하지만 앱에서
AST pretrained 모델 같은 경우 추구하는 input configuration 이 있다.window size: 25ms, hop length: 10ms 기준으로 10.24초의 Mel SpectrogramMel Filter Bank: 128 filters16kH
AST 후반부에서 가장 크게 달라진 점은 체계적인 실험지 기록과 Learning Rate 서치 였다.AST 전반부 까지는 실험을 굉장히 중구난방식으로 진행하여 실험 결과 트래킹에 어려움을 겪었다. 그래서 모델링을 시작하기 전에 실험 기록지를 스프레드시트에 특정 form
멘토링을 통해 CLAP과 AST 모델을 추천받았지만 팀 내에서 AST 모델이 CLAP 모델보다 접근이 더 쉬어 AST 모델을 쓰기로 하였다. AST 를 활용하는 데 있어서 U-Net 과 비슷한 흐름으로 진행되었다. 물론 HuggingFace, Pytorch를 다루는 법
비지도 학습이 끝이 난 후 드디어 우린 U-Net Encoder의 데뷔 무대를 볼 수 있었다. 뭐든 시작에는 설렘과 긴장이 반반 섞여있듯이 기대반 긴장반인 상태로 훈련에 들어갔다.우선 Dense Layer는 아래 같이 쌓았다.Test Accuracy: 58.82%이 실
지금까지 배워온 비지도학습은 Clustering 기법이나 PCA 같은 Dimension Reduction 기법이었다. 그래서 Encoder Decoder를 MSE로 학습시키는 방법은 생소하긴 했다. 하지만 나름 직관적으로 이해할 수 있었기 때문에 팀에서도 접근성이 좋은
YAMNet 이후 우리 팀은 뭔가 Turning Point가 필요했다. 뭔가 더 이상 진전할 수 있는 방법을 생각하기 어려운 나머지 멘토링을 받기로 했다.멘토님을 간단히 소개하면 모두의 연구소에서 Rubato Lab 랩 장을 맡고 계시다. 루바토 랩은 생성형 AI를 통
VGG16 성능에서 기대에 못 미치는 결과를 본 이유는 MFCC에 맞게 Kernel size와 stride를 설정을 못해준 이유도 있지만 데이터셋 사이즈 영향이 있는 것도 확실하다. 하지만 데이터 수집 부분에서 말했듯이 우리 팀은 만족할 수 있는 데이터 수량을 맞추지
이게 비운이면 비운이고 행운이면 행운 같은 복불복 게임 테마인 데이터 수집 수난시대를 겪고 있었다. 라벨링 데이터는 없지만 이상하게도 라벨링 되어있지 않은 데이터는 수두룩 깔려있었다.우선 팀에서 찾은 unlabeled data 리스트는 다음과 같았다.Ubenwa Cry
A. 데이터 수집 데이터 수집 시작! 우선 우리 팀은 Dunstan Baby Language라는 이론을 바탕으로 데이터 수집을 시작했다. > Dunstan Baby Language 란? 아기 울음소리에는 5가지 패턴이 있다고 주장하는 이론이다. 배고픔, 트림, 복통
opencv 를 쓰고 싶은데 이미지 read 에서 오류가 있으신분들이미지 로드 할때만 PIL로 사용하여 우회그 후 opencv를 자유롭게 사용만약 경로가 존재하는데도 numpy array 가 아닌 NoneType이 출력이 되면 아래 방법으로 시도해보세요.이미지 불러올때
참고사항 및 DISCLAIMER > 본 가이드라인은 window 유저와 NVIDIA 그래픽카드를 가지고 계신분들을 위해 작성되었습니다. 아쉽지만 맥 유저나 AMD 그래픽카드를 가지고 계신 분들은 다른 방법을 권장드립니다. 😊 설정 프로세스 Overview 그래픽카드