Chapter 3-3: Audio Spectrogram Transformer(AST)를 활용한 울음소리 분류

박해극·2024년 4월 20일
0

AST 여정 전반부

멘토링을 통해 CLAP과 AST 모델을 추천받았지만 팀 내에서 AST 모델이 CLAP 모델보다 접근이 더 쉬어 AST 모델을 쓰기로 하였다.

AST 를 활용하는 데 있어서 U-Net 과 비슷한 흐름으로 진행되었다. 물론 HuggingFace, Pytorch를 다루는 법을 새로 배워야 하는 상황인 부분에서 조금 다르긴 했지만 U-Net에서 처럼 기본에 충실하지 않았던 부분이 AST 여정 후반부가 생긴 이유이기도 하다. 후반부가 메인 하이라이트이기 때문에 전반부는 간략하게 어떤 부분에서 문제가 있었는지 서술하고 후반부로 넘어갈 예정이다.

구현과 성능에 집착에 따른 문제점

  1. 잘못된 Embedding 값의 활용
    a. AST encoder를 통과한 임베딩을 그대로 사용하지 않고 평균을 내어 사용
  2. Dense Layer 에서 이진분류가 아닌데 Sigmoid Activation을 사용
  3. Data Imbalance

위 문제를 충분히 고려하지 않은 탓에 아주 치명적인 문제가 생겼다. 그래서 우리 팀은 아주 큰 결단을 하게 되는데 이 부분은 후반부에서 다뤄지기 때문에 꼭 읽었으면 한다.


👉👉 다음 챕터 읽으러 가기

profile
안뇽하세요

0개의 댓글