Chapter 2-1: 데이터 수집

박해극·2024년 4월 16일
0

데이터 수집 시작!

우선 우리 팀은 Dunstan Baby Language라는 이론을 바탕으로 데이터 수집을 시작했다.

Dunstan Baby Language 란?
아기 울음소리에는 5가지 패턴이 있다고 주장하는 이론이다. 배고픔, 트림, 복통, 불편함, 피곤함이 5가지 패턴에 속하는 이론이다.

Dunstan Baby Language 를 바탕으로 제일 처음에 찾은 데이터 셋은 Donate-a-Cry-Corpus 데이터셋이었다. Donate-a-Cry-Corpus 데이터셋을 간단히 소개하면 2015년에 아기울음 분석 앱을 출시하기 위해 Lullabond 라는 단체(혹은 회사)에서 Donate-a-cry 캠페인을 열어 유저들에게 아기울음소리를 기부받는 형식으로 진행하였다. 지금은 Lullabond 와 관련된 모든 사이트가 접근이 되지 않아 추후 진척상황은 알 수가 없었다.

Donate-a-Cry-Campaign 소개 영상
https://www.youtube.com/watch?v=81gcaQdgd7s

  • Dunstan Baby Language 와 같은 클래스로 수집이 되어 유의미했지만 Dataset 자체에 Imbalance가 심했다. 특히, 배고픔에 많은 데이터가 치중되었다.
Symptom데이터 수
복통16
트림8
불편함27
배고픔382
피곤함24

Mendeley Data로 보완 하지만…

  • Google Dataset Search로 Mendeley Data를 찾았지만 다른 클래스(트림, 복통)는 없어서 다소 아쉬웠다.
  • 그리고 Donate-a-Cry Corpus의 imbalance를 해결할 만큼 불편함이나 피곤함 데이터수가 많지는 않았다.
데이터 수
배고픔31
불편함31
피곤함1

다른 방법 모색

  • 우선 팀원들과 최대한 YouTube에 라벨링 된 울음소리를 찾아 크롤 해서 wav 파일로 써보자고 했다.

전반적으로 뭔가 라벨링이 되어있는 데이터는 찾기는 어려운 분위기였다. 그렇게 해서 우리 팀은 더욱더 고민하게 되는데…


👉👉 다음 챕터 읽으러 가기

profile
안뇽하세요

0개의 댓글